Tests poussés (essais/erreurs) des options de recherche de doublons / G 2026 Prestige / gros fichier
J’ai refait ces jours-ci de nombreux essais pour 
tester les options proposées par G 2026 Prestige v 2.0 dans la 
Recherche de doublons, sur mon dernier (gros) fichier actif comportant 701 506 personnes, après en avoir fait une sauvegarde et une réindexation, ce qui amène à plus d’un million d’entrées d’index à explorer (précisément 1 075 684). Les résultats sont très problématiques et difficiles à interpréter: 
quand il y a blocage, est-ce un plantage du processus / logiciel G 2026, ou est-ce une arrivée sur un enregistrement corrompu de ma grosse base de données ?
Les essais qui ont donné des 
résultats positifs (sans blocage du processus) ont été les suivants :
- Sans cocher aucune option de recherche : fonctionnement toujours correct pendant 17 minutes, après quoi j’ai arrêté de moi-même l’exploration (avancée d’environ 10 % de l’exploration sur la totalité du dossier) ; résultat : 295 pages pour 52 666 doublons (vrais et faux) sur 95 001 entrées d’index explorées, soit un taux 55 % de « doublons trouvés »
- En cochant seulement l’option « recherche uniquement sur le 1er prénom » , pour réduire sensiblement le taux de faux doublons : fonctionnement toujours correct suivi pendant 46 minutes (avancée de 13 % de l’exploration sur la totalité du dossier) ; arrêt de l’exploration par moi-même ; résultat : 264 pages pour 61 564 doublons (vrais et faux) trouvés sur 137 901 entrées d’index explorées , soit un taux de 44 % de doublons trouvés (inférieur au précédent comme attendu)
- En cochant (en plus du seul 1er prénom) l’option « dont dates cohérentes (c’est-à-dire non séparées de plus d’un siècle) et en prolongeant l’exploration pendant 2 heures (soit 14 % d’avancement sur le dossier complet) : fonctionnement correct ; résultat de 426 pages pour 54 940 doublons trouvés sur 145 801 entrées d’index explorées, soit un taux de 38 % de doublons (vrais et faux) trouvés, inférieur au précédent comme attendu
-  En cochant (en plus du seul 1er prénom et dont dates cohérentes) l’option « dont personnes modifiées à parti du 01/08/2018 » : fonctionnement toujours correct et arrêté par moi-même au bout de 20 minutes : résultat de 157 pages pour 11 695 doublons (vrais et faux) sur 134 201 entrées d’index explorées (soit 12,5 % d’avancement), soit un taux de doublons tombé à 8,7 % nettement inférieur aux précédents, grâce à cette présélection sur les dates de modification (> 2018)
Tous les autres essais avec des combinaisons 
d’une seule ou de plusieurs autres options de recherche souvent en association avec la recherche sur le seul 1er prénom) ont abouti à des échecs, avec arrêt plus ou moins rapide de l’exploration par le logiciel , et absence de résultats affichés dans l’onglet correspondant ; en particulier, les options ayant entraîné un blocage (dysfonctionnement du logiciel, ou tombée sur une donnée corrompue de mon dossier ?) ont été les suivantes :
- Noms des conjoints identiques
- Noms des mères identiques
- Prénoms des pères identiques
- (Noms et) prénoms des pères identiques
- Ayant pour nom A* (ou B*, ou C etc .), c’est-à-dire commençant par A (ou B ou C)
Que peut-on conclure de ces tests poussés ? et surtout comment faire en sorte que les options citées en dernier, visant à réduire significativement le nombre de faux doublons, puissent fonctionner, car à ce stade le processus de recherche de doublons est inopérant pour moi…
merci pour votre aide !