Genj - Rapports - Fusion

Un article de Arvernes Wiki.

Le Rapport de Fusion et de Recherche de Doublons


Sommaire

Généralités sur le rapport / l'outil de fusion et de recherche de doublons


Le rapport de fusion est écrit par Frédéric LAPEYRE, français vivant jadis en Australie mais depuis 2008 en France.


Ce rapport est en fait un outil pour fusionner deux fichiers gedcom dont le rapport produit est le résultat des entités fusionnées. Il permet aussi de rechercher des doublons dans votre Gedcom

Les fichiers originaux ne sont ni modifiés, ni supprimés. Le fichier qui résulte de cette fusion va être créé dans le même répertoire que les fichiers gedcom originaires. Son nom sera celui du gedcom d'origine, auquel une extension additionnelle au choix sera ajoutée.

Ce rapport est un prototype et le choix a été de privilégier la réussite et l'efficacité du moteur de fusion plutôt qu'une jolie interface très conviviale donc soyez indulgent à ce niveau là. Il est conseillé de lire attentivement ce qui suit avant de se lancer dans la fusion de fichiers gedcom. Oui je sais, cela à l'air assez intense mais cela vous explique ce qui va se passer lors de "votre fusion" :-!


Fonctionnalités complètes

Principe

Le principe essentiel de cette fonction de fusion est d'identifier les personnes qui pourraient être considérées comme les mêmes dans les deux fichiers gedcom. On va attribuer un certain pourcentage de niveau de confiance à chaque couple, chaque paire, ainsi formé (ce qu'on appelle couple ici, ce sont ces deux personnes qui semblent identiques - j'utiliserai ci-aprés le mot "paire").

Toutes les paires qui sont considérées comme réelles, sûres, vont constituer ce qu'on appelle un "chevauchement". En fonction des options que vous allez choisir, les entités (personnes) détectées comme faisant parties de ce chevauchement seront fusionnées soit automatiquement, soit aprés confirmation de votre part et elles constitueront le fichier de sortie. Un autre des principes de ce rapport est de limiter autant que faire ce peut, l'interaction avec l'utilisateur. Ce n'est vraiment que si le rapport est en difficulté qu'il va vous demander une confirmation.


Options

Ce rapport se lance à partir du premier fichier gedcom. Une fois démarré, il va vous être demandé où se situe le deuxième fichier gedcom à fusionner avec le premier. Ensuite le rapport va vous demander de confirmer les informations qui vont devoir être conservées pour chaque entité fusionnée. Enfin, le rapport va assembler les deux fichiers pour en créer un troisième avec les entités choisies comme étant celles que l'on garde.


Principaux résultats attendus

  • Evaluation seulement du chevauchement : L'exécution du rapport dans ce cas donnera simplement une évaluation des convergences entre les deux fichiers sans produire aucun fichier de sortie. Il peut en effet être utile à l'utilisateur de comprendre si le second fichier présente un intérêt avant de procéder à une quelconque fusion.
  • Ajoût des deux fichiers : Ici, l'exécution du rapport va simplement ajouter les fichiers l'un à l'autre, sans essayer de comparer, d'analyser, si les entités peuvent être identiques. Un fichier de sortie est bien entendu créé.
  • Opération de fusion proprement dite : Si aucun des cas ci-dessus n'est coché, l'exécution du rapport va entraîner l'analyse du chevauchement, et va produire un fichier résultant, dans les conditions de fusion ci-dessus expliquées.


Préparation des fichiers

  • Vérification des doublons : Les deux fichiers vont être vérifiés dans un premier temps, sur l'existence de doublons. Si aucune entité dans chacun des deux fichiers n'est considérée comme étant un doublon, elles seront affichées et l'opération de fusion continuera.


Les entités considérées lors de l'analyse du chevauchement

  • Evaluation de toutes les entités dans le fichier complet, ou une partie seulement : En présence de trés gros fichiers, il est possible de limiter l'analyse du chevauchement aux ancêtres ou descendants d'une personne donnée. Cependant, ceci est seulement approprié pour un utilisateur qui connaît assez bien la teneur de l'autre fichier pour être sûr qu'aucune entité n'est susceptible d'être commune dans le reste de son arbre généalogique. Si un sous-ensemble est choisi, l'utilisateur sera incité à choisir un individu et à indiquer si la limitation s'applique pour des ancêtres ou des descendants.
  • Inclure des personnes qui n'ont pas d'information de naissance : La date de naissance est un élément essentiel pour évaluer si deux personnes sont les mêmes ou non. Si cette information n'est pas disponible pour de nombreuses personnes dans votre fichier gedcom, le rapport de fusion va passer énormément de temps à essayer d'analyser si ces individus ont des chances d'être les mêmes d'un fichier à l'autre. Cette option ne devrait pas être cochée si vous avez choisi que ce genre de personnes devaient être exclues de l'analyse. Si par contre, vous voulez que ces gens là, soient analysés, il est préférable d'essayer d'estimer leur date de naissance même en prenant une certaine marge, et mettre à jour votre gedcom. Le rapport essaiera de comprendre et d'analyser ces laps de temps.


Vérifications effectuées entre les personnes identifiées

  • Entités seules ou également les connections : En vérifiant si deux entités sont les mêmes, le rapport de fusion va comparer les informations les concernant. En plus, le rapport de fusion peut aussi vérifier les entités reliées à ces mêmes personnes. Par exemple, quand vous comparez deux personnes, le rapport peut aussi vérifier leurs parents, leurs conjoints, leurs enfants, leurs proches (frères, soeurs) pour s'assurer que ces gens, sont bien les mêmes. Ce paramètre permet une comparaison plus rigoureuse des entités puisque le rapport va vérifier plus de choses.


Etablissement des niveaux de confiance entrainant une fusion

  • Niveau de confiance de fusion automatique : Chaque paire d'entités pour laquelle le niveau de confiance de correspondance, est situé au dessus de ce chiffre, sera automatiquement fusionnée sans demander la moindre confirmation à l'utilisateur. C'est vraiment supérieur, pas supérieur ou égal. Donc si vous mettez un taux de confiance ici de 99 %, il vous sera demandé une confirmation si le taux est à 99 %, alors que si le taux obtenu pour cette paire ressort à 100, la fusion sera automatique. Si vous mettez 100, il vous sera toujours demandé une confirmation.
  • Niveau de confiance minimale pour une confirmation par l'utilisateur : Chaque paire d'entités pour laquelle le niveau de confiance est en dessous de ce chiffre, sera ignorée. Ici encore, c'est vraiment inférieur, pas inférieur ou égal. Donc si vous mettez ici 50%, il n'y aura pas de fusion si le taux obtenu par cette paire n'est que de 49.

Conséquence : Toutes les paires pour lesquelles le niveau de confiance se situera entre le "Niveau de confiance de fusion automatique", et le "Niveau de confiance minimale pour une confirmation par l'utilisateur", seront considérées comme "douteuses", en conséquence, l'utilisateur se verra demander une confirmation pour accepter ou non que les données soient fusionnées.

Exemple : Si j'ai mis 99 % pour le "niveau de confiance de fusion automatique", et 80 % pour le "niveau de confiance minimale pour une confirmation par l'utilisateur", il y aura : - fusion automatique, sans aucune confirmation, si le taux calculé par le rapport est de 100. - demande de confirmation à l'utilisateur, si le taux calculé par le rapport se situe entre 80 et 99. - aucune fusion, aucune demande, rien, si le taux calculé par le rapport est inférieur à 80 (donc 79 et en dessous).

A noter que le pourcentage n'est pas un indicateur linéaire: 100% veut bien dire que les deux entités sont identiques, mais 50% ne veut pas forcément dire qu'elles sont à moitié identiques. Vous sentirez à l'usage comment "régler" ces bornes.

Règles applicables lors de la fusion des entités

  • Information à conserver : Deux entités qui sont sur le point d'être fusionnées, peuvent avoir des informations différentes, voir conflictuelles. Une des cinq règles suivantes peut être appliquées par le rapport.
  • Toujours conserver l'entité A : Ici on conserve toutes les informations de l'entité A, et seulement celles-ci. Les informations de l'entité B seront totalement ignorées.
  • Toujours conserver l'entité B : Ici on conserve toutes les informations de l'entité B, et seulement celles-ci. Les informations de l'entité A seront totalement ignorées.
  • On préfère l'information de A en cas de conflit : On conserve toutes les informations des entités de A et de B quand elles sont compatibles. En cas de conflit, on utilisera par préférence les informations de A.
  • On préfère l'information de B en cas de conflit : On conserve toutes les informations des entités de A et de B quand elles sont compatibles. En cas de conflit, on utilisera par préférence les informations de B.
  • Demande une intervention en cas de conflit : On conserve toutes les informations des entités de A et de B lorsqu'elles sont compatibles. En cas de conflit, il sera demandé l'utilisateur de choisir ce qu'il faut faire.


Détails sur le fichier de Sortie

  • Entête choisie pour le fichier de sortie : Cette option vous permet d'indiquer quel fichier gedcom doit être utilisé pour construire l'entête du fichier de sortie. ATTENTION: c'est aussi le choix de l'encodage du fichier (ANSI, UNICODE, UTF8, etc). Il est donc préférable que les deux fichiers aient le même encodage pour éviter des incohérences des caractères accentués notamment.
  • Extension : Vous pouvez indiquer quelle extension rajouter au nom du fichier gedcom A pour dénommé le fichier de sortie. Ceci vous permettra de le différencier.


Les entités devant être conservées dans le fichier de sortie

Toutes les entités fusionnées (le chevauchement) sont évidemment reprises dans le fichier de sortie. En plus, il est possible de spécifier quelles autres entités on souhaite y inclure.

  • Conserver toutes les entités qui ne sont que dans le fichier gedcom A : Cette option doit être cochée si toutes les entités qui n'apparaissent que dans le fichier A et qui ne sont pas connectées au "chevauchement" doivent être conservées dans le fichier de sortie.
  • Conserver toutes les entités du fichier A qui sont connectées à celles qui ont été fusionnées : Cette option doit être cochée si toutes les entités du fichier gedcom A qui sont connectées au "chevauchement", doivent être conservées dans le fichier de sortie.
  • Conserver toutes les entités du fichier B qui sont connectées à celles qui ont été fusionnées : Cette option doit être cochée si vous souhaitez que toutes les entités du fichier gedcom B qui sont connectées au "chevauchement" doivent être conservées dans le fichier de sortie.
  • Conserver toutes les entités qui ne sont que dans le fichier gedcom B : Cette option doit être cochée si toutes les entités qui n'apparaissent que dans le fichier B et qui ne sont pas connectées au "chevauchement", doivent être conservées dans le fichier de sortie.


Execution de la fusion

  • Production d'un historique de la fusion : Indique si oui ou non vous voulez qu'il soit créé un fichier reprenant l'historique de la fusion. Ce rapport liste par date et fichier d'origine les entités dans le fichier de sortie qui ont été ajoutées, modifiées, en conséquence de l'opération de fusion qui vient d'être exécutée.
  • Affichage des détails : Voulez-vous qu'il soit affiché plus de détails durant la fusion.
  • Création d'un log : Voulez-vous qu'un fichier log soit créé qui reprendrait ce qui s'est passé durant l'exécution du rapport.


Dernières améliorations et nouveautés du rapport de fusion et de recherche de doublons

28/09/2008 v1.21

Cette version est disponible au travers du programme d'installation, ou du fichier genj_arvernes.zip ou du fichier ReportsRecent.zip (archives au format zip). [1].

Voir la section de ce site consacrée au téléchargement pour des explications générales.[2]


26/09/2008 v1.20

Améliorations:

  • Ajout de la recherche de doublons.
  • Lisibilité du log.
  • Traduction en Français.
  • Amélioration de la performance.
  • Simplification des paramètres d'exécution.
  • Rapport en sortie pour doublons et pour fusions.


05/09/2008 v1.18

Améliorations:

  • Bug lié à l'encodage des fichiers Gedcom.


19/11/2006 v0.1

  • Création du rapport de fusion


Notes

  1. Pour installer ce fichier, il vous suffit de le copier dans le répertoire racine de GenJ et de le décompacter.
  2. Pour reprendre un rapport en utilisant le programme d'installation automatique, il faut vous assurer de cocher la case "Développement récents" à l'écran n° 8 du rafraîchissement de GenJ. Vous pouvez aussi reprendre un rapport, si vous préférez une installation manuelle, en téléchargeant le fichier "ReportsRecent.zip" (fichier qui regroupe l'ensemble des rapports). Si vous utilisez le fichier genj_arvernes.zip, rien n'est à faire, il suffit de décompacter l'archive.
Sunclock Xrmap