Blocage de la recherche de doublons

Phil Chari · 16 Octobre 2025

La recherche de doublons sur mon gros fichier actif (plus de 700 000 personnes) se bloque toujours au même niveau, à 8001 index explorés sur plus d'un million d'entrées d'index explorées (1 074 925); la barre d'avancement est figée et la r'echerche arrêtée; voir capture de cet écran figé en pièce jointe.
J'espérais pourtant que cette erreur (déjà ancienne de plusieurs semaines) aurait disparu après la réparation de mon problème de marqueur (voir le fil de discussion/Marqueurs), suite à la suppression des deux fichiers 'corrompus" config.ema et undo.adb dans mon dossier (selon message de Morgan de ce jour à 9h45).
Y aurait-il encore queque fichier corrompu dans mon très gros dossier, ou bien ce blocage en recherche de doublon provient-il d'autre chose ?

jlturbe · 16 Octobre 2025

Réessayer en décochant les prénoms

predigny · 16 Octobre 2025

A mon avis, avec une base de 700 000 personnes, il vaut mieux vivre avec quelques doublons que de leurs faire la chasse.

Phil Chari · 16 Octobre 2025

predigny a dit:
A mon avis, avec une base de 700 000 personnes, il vaut mieux vivre avec quelques doublons que de leurs faire la chasse.

Oui, c'est vrai, pas de raison d'être un ayatollah du dédoublonnage avec ce gros fichier, d'autant plus que j'ai fait cette chasse aux doublons très régulièrement depuis plus de 20 ans, chaque fois que je m'apprêtais à faire un export vers Geneanet (à l'exclusion de mes notes justifiatives de mes filiations , mariages etc.); j'estime avoir de l'ordre de 1 à 2 pour mille seulement de doublons, soit peut-être un millier de vrais doublons pour 700 000 personnes; et les résultats de recheche de ces doublons sont noyées au milieu d'un nombre tout aussi élévé (voire plus) de personnes ou de couples homonymes mais réellement distincts; il serait commode que l'on puisse cocher dès leur première apparition ces faux doublons et vrais homonymes distincts, pour qu'ils ne reviennent pas éternellement dans la recherche de doublons, un peu comme on peut cocher pour les conserver d'apparentes incohérences (malgré l'ajustyement des critères d'incohérences) dans la recherche des incohérences qui sont conformes à la réalité (ex: cas de remariages très tardifs entre personnes veuves et assez âgées)

Phil Chari · 17 Octobre 2025

jlturbe a dit:
Réessayer en décochant les prénoms

Bonne idée ... mais même résultat: échec au même endroit (à 8001 entrées d'index explorées, sur les noms commençant par A); je vais réessayer sans la sélection des noms par A*

Phil Chari · 17 Octobre 2025

Phil Chari a dit:
Bonne idée ... mais même résultat: échec au même endroit (à 8001 entrées d'index explorées, sur les noms commençant par A); je vais réessayer sans la sélection des noms par A*

En supprimant le choix des noms commençant par A*, la recherche de doublons est allée un peu plus loin en explorant 13601 entrées d'index, mais s'est terminée quand même assez vite , avec le message d'erreur "Abnormal program destination" (capture d'écran jointe)

Phil Chari · 17 Octobre 2025

Phil Chari a dit:
En supprimant le choix des noms commençant par A*, la recherche de doublons est allée un peu plus loin en explorant 13601 entrées d'index, mais s'est terminée quand même assez vite , avec le message d'erreur "Abnormal program destination" (capture d'écran jointe)

en cochant avec une date pas trop lointaine (2025 remplaçant la date de 2018 qu était saisie mais avec cette fonction date décochée) la recherhce de doublons est allée jusqu'à 593601 entrées d'index explorées (et 6 doublons trouvés sur ces personnes saisies depuis 2 mois), mais s'est bloquée après quelques minutes de sablier, mais aucune liste des doublons trouvés n'est apparue même après longue attente de 15 minutes environ; voir capture d'écran ci-jointe

Phil Chari · 17 Octobre 2025

Phil Chari a dit:
en cochant avec une date pas trop lointaine (2025 remplaçant la date de 2018 qu était saisie mais avec cette fonction date décochée) la recherhce de doublons est allée jusqu'à 593601 entrées d'index explorées (et 6 doublons trouvés sur ces personnes saisies depuis 2 mois), mais s'est bloquée après quelques minutes de sablier, mais aucune liste des doublons trouvés n'est apparue même après longue attente de 15 minutes environ; voir capture d'écran ci-jointe

Phil Chari · 17 Octobre 2025

nouvelle recherche de doublons bloquée, toujours au même niveau de 8201 entrées d'index explorées, losqu'on coche seulement le conjoint identique (nom et prénom); voir capture d'écran ci-jointe

Phil Chari · 17 Octobre 2025

la recherche de doublons avec une mère identique (nom et prénom) donne un très grand nombre de faux doublons, qui n'en sont pas mais dont la mère est non enreguistrée (fiche de la mère vide): ce n'est pas ce qu'on pourrait nommer "ayant uune même mère : problème de logiciel !
idem pour une recherche de doublons avec seulement le même père: tous les homonymes dont la filiation paternelle n'est pas indiquée apparaissent comme doublons, ce qui est faux: problème de logiciel !
--> vide n'est pas identique

Phil Chari · 18 Octobre 2025

Phil Chari a dit:
la recherche de doublons avec une mère identique (nom et prénom) donne un très grand nombre de faux doublons, qui n'en sont pas mais dont la mère est non enreguistrée (fiche de la mère vide): ce n'est pas ce qu'on pourrait nommer "ayant uune même mère : problème de logiciel !
idem pour une recherche de doublons avec seulement le même père: tous les homonymes dont la filiation paternelle n'est pas indiquée apparaissent comme doublons, ce qui est faux: problème de logiciel !
--> vide n'est pas identique

Pourquoi la date du 02/08/2018 est-elle pré-remplie par le logiciel Généatique (2026 ou 2025) dans les paramètres de recherche de doublons ? ya-t-il une difficulté à rechercher les doublons sur les personnes ccréées avant cette date ?

Phil Chari · 23 Octobre 2025

Phil Chari a dit:
Pourquoi la date du 02/08/2018 est-elle pré-remplie par le logiciel Généatique (2026 ou 2025) dans les paramètres de recherche de doublons ? ya-t-il une difficulté à rechercher les doublons sur les personnes ccréées avant cette date ?

La recherche de doublons (avec G 2026 Prestige v 2.0) sur mon gros fichier (initialisé il y a 30 ans et comportant aujourd'hui plus de 700 000 personnes) donne des résultats très différents selon qu'on coche ou non l'option de date (préremplie par le logiciel au 01/08/2018) à partir de laquelle porte la recherche à partir des dates de modification de fiches des personnes: sans cocher cette option de date (donc sur l'ensemble des personnes créées depuis 30 ans) j'obtiens un taux de 38 % de doublons au bout de 2 heures de recherche (avec 54 940 doublons trouvés sur 145 801 entrées d'index explorées); tandis qu'en cochant cette option de date (donc sur les seules fiches modifées depuis août 2018), j'obtiens un taux de doublons de 8,7 %% (soit plus de 4 fois moins) avec 11 695 doublons au bout de 20 minutes sur 134 401 entrées d'index explorées; toutes choses étant égales par ailleurs, soit avec un filtrage très souple des personnes, ne cochant que deux autres options de recherhches (celles qui fonctionnent sur mon dossier aucun blocage): sur le 1er prénom seulement et avec des dates cohérentes (sachant que je mets une date de naissance même approxuimative sur toutes mes fiches).

Voir les deux photos correspondantes d'avancement des recherches de doublons, ci-jointes

Que peut-on en déduire ?? En quoi a consisté cette rupture calendaire en 2018 sur les versions annuelles de Généatique, en particulier sur le processus de recherche de doublons ?

AL1493 · 23 Octobre 2025

Bonjour,

Phil Chari a dit:
En quoi a consisté cette rupture calendaire en 2018 sur les versions annuelles de Généatique, en particulier sur le processus de recherche de doublons ?

Je pense que cela ne correspond à rien, et je pense que cette date ne correspond à rien. Sans doute que Généatique a besoin d'une date dans cette zone, car une zone vide générerait une erreur et peut-être un plantage. C'est mon avis et je ne suis pas du CDIP. Si vous ne cochez pas cette option, c'est comme si la zone était vide.

Phil Chari a dit:
ans cocher cette option de date (donc sur l'ensemble des personnes créées depuis 30 ans) j'obtiens un taux de 38 % de doublons au bout de 2 heures de recherche (avec 54 940 doublons trouvés sur 145 801 entrées d'index explorées); tandis qu'en cochant cette option de date (donc sur les seules fiches modifées depuis août 2018), j'obtiens un taux de doublons de 8,7 %% (soit plus de 4 fois moins) avec 11 695 doublons au bout de 20 minutes sur 134 401 entrées d'index explorées; toutes choses étant égales par ailleurs,

Je pense qu'il faut être prudent avec les chiffres. Si vous n'explorez que 10 % de la base, vous aurez forcément moins de doublons, et on ne sait pas si le calcul du pourcentage est fait en nombre de doublons / nombre total de fiches ou en nombre de doublons / nombre de fiches explorées.

Phil Chari · 24 Octobre 2025

AL1493 a dit:
Bonjour,

Je pense que cela ne correspond à rien, et je pense que cette date ne correspond à rien. Sans doute que Généatique a besoin d'une date dans cette zone, car une zone vide générerait une erreur et peut-être un plantage. C'est mon avis et je ne suis pas du CDIP. Si vous ne cochez pas cette option, c'est comme si la zone était vide.

Je pense qu'il faut être prudent avec les chiffres. Si vous n'explorez que 10 % de la base, vous aurez forcément moins de doublons, et on ne sait pas si le calcul du pourcentage est fait en nombre de doublons / nombre total de fiches ou en nombre de doublons / nombre de fiches explorées.

Merci Alain pour votre réponse: 3 précisions de ma part à propos de mes problèmes sur la recherche des doublons:
- bien que j'ai commencé à saisir des personnes il y a trente ans environ, aucune fiche de mon gros dossier actuel (plus de700 000 personnes) est restée sans avoir été modifiée depuis ce mois d'août 2018 pré-rempli par Généatique (?) ou par un de mes descriptifs (?), car depuis lors j'ai modifié intégralement mon dossier en le récupérant par export/réimport complet de gedcom pour fonctioner et poursuivre mes saisies sur un autre ordinateur que le principal, faute d'avoir pu restaurer une bonne sauvegarde; donc je dois avoir autant de fiches à explorer, que l'on coche ou non cette option de date (2018)dans la recherche de doublons
- c'est moi qui ai calculé le taux de doublons en divisant le nombre de doublons détectés par le nombre d'entrées d'index explorées; ce taux est (trop) élevé, en réponse à des recherches de doublons fonctionnant correctement ( 'sur premier prénom seul' et/ou ' dont dtzes cohérentes') qui restreignent le nombre de vrais doublons et admettent beaucoup de "faux doublons"; les options qui pourraient restreindre le taux de doublons mais qui entraînent chez moi des blocages sont les suivantes: 'noms des conjoints identiques', ou/et 'nom des mères identiques' ou/et 'noms des pères identiques' ou/et 'prénom des pères identiques'
- malheureusement, la recherche avec les seules options qui fonctionnent se poursuit trop longtemps, et j'ai arrêté ces essais qui fionctionnent après 1/2 heure , voire 2 heures, en pensant que cela irait probablement jusqu'au bout de l'exploration des entrées d'index (plus de un million !); pour faire de nouveaux essais de recherche moins longues avec les différentes options (celles qui fonctionent et celles qui bloquent), je vais segmenter les recherches en utilisant 'noms cmmençant par A*', puis B*, C* etc., ce qui divisera par au moin dix le nombre de personnes à chaque recgherche, me permettant d'aller jusqu'au bout.
A suivre donc !
Phil
(G 2026 Prestige v 2.0)

AL1493 · 24 Octobre 2025

Phil Chari a dit:
c'est moi qui ai calculé le taux de doublons en divisant le nombre de doublons détectés par le nombre d'entrées d'index explorées;

Bonjour,
Savez-vous à quoi correspond le "nombre d'entrées d'index explorées". Je pense que cela n'a pas de rapport avec un nombre de personnes explorées.

Phil Chari · 24 Octobre 2025

Phil Chari a dit:
Merci Alain pour votre réponse: 3 précisions de ma part à propos de mes problèmes sur la recherche des doublons:
- bien que j'ai commencé à saisir des personnes il y a trente ans environ, aucune fiche de mon gros dossier actuel (plus de700 000 personnes) est restée sans avoir été modifiée depuis ce mois d'août 2018 pré-rempli par Généatique (?) ou par un de mes descriptifs (?), car depuis lors j'ai modifié intégralement mon dossier en le récupérant par export/réimport complet de gedcom pour fonctioner et poursuivre mes saisies sur un autre ordinateur que le principal, faute d'avoir pu restaurer une bonne sauvegarde; donc je dois avoir autant de fiches à explorer, que l'on coche ou non cette option de date (2018)dans la recherche de doublons
- c'est moi qui ai calculé le taux de doublons en divisant le nombre de doublons détectés par le nombre d'entrées d'index explorées; ce taux est (trop) élevé, en réponse à des recherches de doublons fonctionnant correctement ( 'sur premier prénom seul' et/ou ' dont dtzes cohérentes') qui restreignent le nombre de vrais doublons et admettent beaucoup de "faux doublons"; les options qui pourraient restreindre le taux de doublons mais qui entraînent chez moi des blocages sont les suivantes: 'noms des conjoints identiques', ou/et 'nom des mères identiques' ou/et 'noms des pères identiques' ou/et 'prénom des pères identiques'
- malheureusement, la recherche avec les seules options qui fonctionnent se poursuit trop longtemps, et j'ai arrêté ces essais qui fionctionnent après 1/2 heure , voire 2 heures, en pensant que cela irait probablement jusqu'au bout de l'exploration des entrées d'index (plus de un million !); pour faire de nouveaux essais de recherche moins longues avec les différentes options (celles qui fonctionent et celles qui bloquent), je vais segmenter les recherches en utilisant 'noms cmmençant par A*', puis B*, C* etc., ce qui divisera par au moin dix le nombre de personnes à chaque recgherche, me permettant d'aller jusqu'au bout.
A suivre donc !
Phil
(G 2026 Prestige v 2.0)

AL1493 a dit:
Bonjour,
Savez-vous à quoi correspond le "nombre d'entrées d'index explorées". Je pense que cela n'a pas de rapport avec un nombre de personnes explorées.

J'ai constaté depuis longtemps que le nombre (d'entrées) d'index des personnes (celui dont le fichier s'ouvre et se ferme à chaque ouverture /femeture/sauvegarde du dossier) est sensiblement supérieur au nombre de personnes du dossier: à mon avis, cela tient aux occurrences des patronymes (et peut-être des prénoms) qui pour chaque personne peuvent être multples : plusieurs orthographes du patronyme ou ajout d'un surnom pour une seule personne (ou alias WKMX; ou 'dit ceci ou cela'; je n'utilise pas les équivalences de noms (ni de prénoms) afin d'éviter l'explosion combinatoire des recherches sur les persionnes avec équivalences; mais je mets volontiers 2 ou trois noms différents pour une même personne; le nombre d'entrées d'index NomPrénom est ainsi actuellemenrt pour mon dossier de 1 075 395 pour 701 358 personnes, ce qui me paraît cohérent avec la fréquence estimée des multiples occurrences de patronymes saisies pour une même personne

Phil Chari · 25 Octobre 2025

Phil Chari a dit:
J'ai constaté depuis longtemps que le nombre (d'entrées) d'index des personnes (celui dont le fichier s'ouvre et se ferme à chaque ouverture /femeture/sauvegarde du dossier) est sensiblement supérieur au nombre de personnes du dossier: à mon avis, cela tient aux occurrences des patronymes (et peut-être des prénoms) qui pour chaque personne peuvent être multples : plusieurs orthographes du patronyme ou ajout d'un surnom pour une seule personne (ou alias WKMX; ou 'dit ceci ou cela'; je n'utilise pas les équivalences de noms (ni de prénoms) afin d'éviter l'explosion combinatoire des recherches sur les persionnes avec équivalences; mais je mets volontiers 2 ou trois noms différents pour une même personne; le nombre d'entrées d'index NomPrénom est ainsi actuellemenrt pour mon dossier de 1 075 395 pour 701 358 personnes, ce qui me paraît cohérent avec la fréquence estimée des multiples occurrences de patronymes saisies pour une même personne

Tests poussés (essais/erreurs) des options de recherche de doublons / G 2026 Prestige / gros fichier

J’ai refait ces jours-ci de nombreux essais pour tester les options proposées par G 2026 Prestige v 2.0 dans la Recherche de doublons, sur mon dernier (gros) fichier actif comportant 701 506 personnes, après en avoir fait une sauvegarde et une réindexation, ce qui amène à plus d’un million d’entrées d’index à explorer (précisément 1 075 684). Les résultats sont très problématiques et difficiles à interpréter: quand il y a blocage, est-ce un plantage du processus / logiciel G 2026, ou est-ce une arrivée sur un enregistrement corrompu de ma grosse base de données ?

Les essais qui ont donné des résultats positifs (sans blocage du processus) ont été les suivants :

Sans cocher aucune option de recherche : fonctionnement toujours correct pendant 17 minutes, après quoi j’ai arrêté de moi-même l’exploration (avancée d’environ 10 % de l’exploration sur la totalité du dossier) ; résultat : 295 pages pour 52 666 doublons (vrais et faux) sur 95 001 entrées d’index explorées, soit un taux 55 % de « doublons trouvés »
En cochant seulement l’option « recherche uniquement sur le 1er prénom » , pour réduire sensiblement le taux de faux doublons : fonctionnement toujours correct suivi pendant 46 minutes (avancée de 13 % de l’exploration sur la totalité du dossier) ; arrêt de l’exploration par moi-même ; résultat : 264 pages pour 61 564 doublons (vrais et faux) trouvés sur 137 901 entrées d’index explorées , soit un taux de 44 % de doublons trouvés (inférieur au précédent comme attendu)
En cochant (en plus du seul 1er prénom) l’option « dont dates cohérentes (c’est-à-dire non séparées de plus d’un siècle) et en prolongeant l’exploration pendant 2 heures (soit 14 % d’avancement sur le dossier complet) : fonctionnement correct ; résultat de 426 pages pour 54 940 doublons trouvés sur 145 801 entrées d’index explorées, soit un taux de 38 % de doublons (vrais et faux) trouvés, inférieur au précédent comme attendu
En cochant (en plus du seul 1er prénom et dont dates cohérentes) l’option « dont personnes modifiées à parti du 01/08/2018 » : fonctionnement toujours correct et arrêté par moi-même au bout de 20 minutes : résultat de 157 pages pour 11 695 doublons (vrais et faux) sur 134 201 entrées d’index explorées (soit 12,5 % d’avancement), soit un taux de doublons tombé à 8,7 % nettement inférieur aux précédents, grâce à cette présélection sur les dates de modification (> 2018)

Tous les autres essais avec des combinaisons d’une seule ou de plusieurs autres options de recherche souvent en association avec la recherche sur le seul 1er prénom) ont abouti à des échecs, avec arrêt plus ou moins rapide de l’exploration par le logiciel , et absence de résultats affichés dans l’onglet correspondant ; en particulier, les options ayant entraîné un blocage (dysfonctionnement du logiciel, ou tombée sur une donnée corrompue de mon dossier ?) ont été les suivantes :

Noms des conjoints identiques
Noms des mères identiques
Prénoms des pères identiques
(Noms et) prénoms des pères identiques
Ayant pour nom A* (ou B*, ou C etc .), c’est-à-dire commençant par A (ou B ou C)

Que peut-on conclure de ces tests poussés ? et surtout comment faire en sorte que les options citées en dernier, visant à réduire significativement le nombre de faux doublons, puissent fonctionner, car à ce stade le processus de recherche de doublons est inopérant pour moi…

merci pour votre aide !

Phil Chari · 28 Octobre 2025

Phil Chari a dit:
Tests poussés (essais/erreurs) des options de recherche de doublons / G 2026 Prestige / gros fichier

J’ai refait ces jours-ci de nombreux essais pour tester les options proposées par G 2026 Prestige v 2.0 dans la Recherche de doublons, sur mon dernier (gros) fichier actif comportant 701 506 personnes, après en avoir fait une sauvegarde et une réindexation, ce qui amène à plus d’un million d’entrées d’index à explorer (précisément 1 075 684). Les résultats sont très problématiques et difficiles à interpréter: quand il y a blocage, est-ce un plantage du processus / logiciel G 2026, ou est-ce une arrivée sur un enregistrement corrompu de ma grosse base de données ?

Les essais qui ont donné des résultats positifs (sans blocage du processus) ont été les suivants :

Sans cocher aucune option de recherche : fonctionnement toujours correct pendant 17 minutes, après quoi j’ai arrêté de moi-même l’exploration (avancée d’environ 10 % de l’exploration sur la totalité du dossier) ; résultat : 295 pages pour 52 666 doublons (vrais et faux) sur 95 001 entrées d’index explorées, soit un taux 55 % de « doublons trouvés »

En cochant seulement l’option « recherche uniquement sur le 1er prénom » , pour réduire sensiblement le taux de faux doublons : fonctionnement toujours correct suivi pendant 46 minutes (avancée de 13 % de l’exploration sur la totalité du dossier) ; arrêt de l’exploration par moi-même ; résultat : 264 pages pour 61 564 doublons (vrais et faux) trouvés sur 137 901 entrées d’index explorées , soit un taux de 44 % de doublons trouvés (inférieur au précédent comme attendu)

En cochant (en plus du seul 1er prénom) l’option « dont dates cohérentes (c’est-à-dire non séparées de plus d’un siècle) et en prolongeant l’exploration pendant 2 heures (soit 14 % d’avancement sur le dossier complet) : fonctionnement correct ; résultat de 426 pages pour 54 940 doublons trouvés sur 145 801 entrées d’index explorées, soit un taux de 38 % de doublons (vrais et faux) trouvés, inférieur au précédent comme attendu

En cochant (en plus du seul 1er prénom et dont dates cohérentes) l’option « dont personnes modifiées à parti du 01/08/2018 » : fonctionnement toujours correct et arrêté par moi-même au bout de 20 minutes : résultat de 157 pages pour 11 695 doublons (vrais et faux) sur 134 201 entrées d’index explorées (soit 12,5 % d’avancement), soit un taux de doublons tombé à 8,7 % nettement inférieur aux précédents, grâce à cette présélection sur les dates de modification (> 2018)

Tous les autres essais avec des combinaisons d’une seule ou de plusieurs autres options de recherche souvent en association avec la recherche sur le seul 1er prénom) ont abouti à des échecs, avec arrêt plus ou moins rapide de l’exploration par le logiciel , et absence de résultats affichés dans l’onglet correspondant ; en particulier, les options ayant entraîné un blocage (dysfonctionnement du logiciel, ou tombée sur une donnée corrompue de mon dossier ?) ont été les suivantes :

Noms des conjoints identiques

Noms des mères identiques

Prénoms des pères identiques

(Noms et) prénoms des pères identiques

Ayant pour nom A* (ou B*, ou C etc .), c’est-à-dire commençant par A (ou B ou C)

Que peut-on conclure de ces tests poussés ? et surtout comment faire en sorte que les options citées en dernier, visant à réduire significativement le nombre de faux doublons, puissent fonctionner, car à ce stade le processus de recherche de doublons est inopérant pour moi…

merci pour votre aide !

Pour savoir si ces problèmes de recherche de doublons viennent de ma base de données (éventuellement corrompue et en tout cas très grosse: 701 600 personnes) ou s'ils sont dus à de défailances (bugs) du logiciel du CDIP, j'ai entrepris une regénération complète de ma base de données par Généatique Prestige 2026 v 2.0, sur mon PC de vacances (de puissance moyenne): Lenovo Tout en Un DESKTOP-RC9VFL8, Intel-Core i5-1035G4, CPU 1,10 Ghz, Processeur 64 bits, Ram 8 Go, Stockage 1,1 To (dont 271 Go fixe et 931 Go amovible), Windows 11 famille v 24H2). La regénération, via l'option maximale de "Utilitaires/Réparation de la base de données", a bien fonctioné bien qu'elle ait duré extrêmement longtemps: environ 28 heures de traitement, avec 3 passes de la barre d'avancement dont la première extrêmement lente (plus de 27 h) et les deux dernières assez rapides (environ 30 minutes), jusqu'à la fenêtre d'annonce "Terminé avec succès". jJai alors sauvegardé le fichier regénéré qui s'est ouvert sans problème, et j'en ai fait une réindexation (rapide, sans problème), avant de relancer les essais du processus "Recherche de doublons" de G 2026. Les résultats de ces nouveaux essais sont sans appel et donnent malheureusement des résultats identiques aux précédents essais (d'avant regénération de la BD)
- le taux de doublons le plus bas calculé avant le blocage (plantage) du logiciel est toujours inférieur à 1% (0,9 % précédemment et 0,7 % aujourdhui (avec 55 doublons trouvés lors du blocage sur 8 227 entrées d'index explorées sur un total de 1 075 863 entrées d'index), et trouvé avec comme seules options cochées: noms des conjoints identiques, recherche sur seul 1er prénom, et avec dates cohérentes (cohérence constatée sur environ 1 siècle maximum d'écart entre dates extrèmes des événements BMS)
- les seules options cobinées de recherche de doublons qui continuent de fonctionner sans blocage sont (simultanément): 1er prénom seulement Et dates cohérentes ET personnes modifiées après août 2018; je laisse cet essai se poursuivre jusqu'à la fin; à 64 % d'avancement ( soit 686 000 entrées d'index explorées sur 1 075 863) , le taux de doublons trouvé est toujours le même de 8,5 % (soit 58 000 doublons trouvés sur les 686 000 entrées explorées. Ces options de recherche de doublons qui fonctionnent ne sont pas assez discriminantes et font apparaître beaucoup trop de faux doublons, faute de pouvoir inclure une ou plusieurs des autres options de recherche: conjoints identiques, ou/et pères identiques/ ou/et mères identiques

Question (à transmettre au CDIP): comment faire fonctionner ces options discriminantes (conjoint, père, mère) pour la recherche des vrais doublons, qui dans l'état actuel des choses entrainent un blocage de la recherche (et donc une absence de résultats) ?

Phil Chari · 28 Octobre 2025

La recherche de doublons qui fonctionne (citée précédemment) avec comme seules trois options de recherche: 1er prénom seul ET dates cohérentes (sur 1 siècle) ET seules personnes modifées après août 2018, s'est termnée normalment au bout de près de 3 heures de traitement et a affiché un résultat de 1 167 pages, inexploitable en pratique, principalement du fait que 95 % environ des personnes citées dans les groupes de doublons possibles à examiner sont clairement différents; sur le 10 premières pages de résultats que j'ai regardées, je n'ai trouvé qu'un seul vrai doublon, ce qui correspond à la division par douze du taux de doublons proposés entre cette recherche peu discrimibnante (taux de doublons détectés de 8,5 %) et la recherchee (malhereusement bloquée) comportant l'option de "conjoints identiques" (taux de 0,7 % en début d'avancement avant blocage); j'ai demandé au logiciel f'effectuer la fusion de ce vrai doublon ... mais mal m'en a pris , car le logiciel a mis plus de 7 minutes pour faire d'emblée la "Finalisation de la fusion /Mise à jour de la liste des résultats".: j'aurais aimé que Généatique 2026 propose de ne faire cette mise à jour de la liste qu'à la demande de l'utilisateur ! Bref, il est indispensable de pouvoir filtrer et exclure les faux doublons (à parents ou/et conjoints différents) pour ne conserver en résultats que les vrais doublons (à fusionner) et les vrais homonymes quoique dictincts (à conserver). La chasse aux doublons dans mon gros fichier n'est pas une sinécure !

Phil Chari · 29 Octobre 2025

J'ai lancé avec succès une recherche de doublons avec 4 options de recherche simultanées soit les 3 précédentes qui fonctonnaient bien (1er prénom seulement, dates cohérentes sur un siècle, personnes modifiée après aôut 2018) plus l'option "avec un lieu en commun". La recherche a été très lente (durée totale pour 701 619 personnes et 1 075 884 entrées d'index explorées : plus de 19 heures !) et s'est terminée sur les résultats suivants: 113 "pages" (electroniques ) de résultats (soit environ 700 pages imprimables), avec un taux de doublons possibles à examiner enfin tombé à 0,8 % , soit 10 fois moins qu'avec l'essai précédent, ce qui prouve que le choix de l'option "même lieu" est bien discriminante. Pour autant, l'examen manuel détaillé (sur une vintaine de pages) des groupes de personnes proposées comme possibles doublons montre que l'on peut sans doute diviser encore par 10 ce taux de doublons , dès lors qu'on doit éliminer les faux doublons suivants encore subsistants: frères (ou soeurs) germains (de mêmes parents) dont l'un des deux est morts en bas-âge et dont le prénom est repris dans une naissance suivante; homonymes (cohérents en date et lieux) dont les parents sont différents; homonymes (cohérents en dates et lieux) ayant des conjoints différents avec des dates de naissance d'enfants se recouvrant, donc excluant qu'ils'agisse d'un remariage après veuvage.
De telle sorte que le taiux réel de vrais doublons dans mon gros fichier est probablement de l'ordre de (ou inférieur à) un pour mille seulement ..., ce qui ferait tout de mme quelques 500 vrais doublons, que je souhaiterait évidemment voir apparaître automatiquement par le processus de recherche de doublons de G 2026 Prestige... alors que ce processus continue (pour moi seul ? ou pour tout le monde ?) de bloquer lorsqu'on active l'une ou/et l'autre des options les plus discriminantes: même père, même mère, même conjoint;
Toujours donc dans l'attente d'une résolution de ce problème: est-il lié au fait que je n'utilise pas les équivalences de noms ni de prénoms dans mes préférences pour ma généalogie ??