• Bienvenue sur la nouvelle version du forum Guide de généalogie,

    Si vous avez du mal à vous connecter, faites une demande de réinitialisation de mot de passe : Réinitialiser mon mot de passe
  • Découvrez la nouvelle section du forum : Réalisations dans Généatique. Montrez et partagez vos créations d'arbres dans Généatique !
    Et participez au concours !

Lenteur de la recherche de doublons

Membre
Depuis plus de 48h, Généatique 2013 est à la recherche des doublons dans ma généalogie. Celle-ci contient environ 26000 personnes, le programme signale qu'il a exploré 16141 entrées d'index sur 30099, et il me semble que la progression est de plus en plus lente. J'ai choisi une recherche des couples en tenant compte de toutes les équivalences sur les noms et prénoms. C'est la première fois que j'utilise cette fonction.

La machine est un PC portable sous Win 7 64 bit, i3-2310M à 2,1GHz, 8 Go de mémoire, beaucoup de Giga disponibles sur le disque. Tout doit donc se passer en mémoire, ou à peu près, et la puissance de calcul est très honnête ; la base de données n'est pas monstrueuse. J'ai tenté de désactiver le gardien anti-virus : aucun effet.

Pour l'instant, G13 a trouvé 273 doublons, ce qui me semble beaucoup. Je serai curieux de voir ce qu'il appelle un doublon.

Que se passe-t-il si j'utilise le bouton "Arrêt de l'exploration" ? Je perd tout le travail effectué jusque là, ou bien je dois simplement me contenter d'une liste correcte, mais incomplète ?
 
Ca me semble bien lent en effet. Je viens de faire un essai avec G2013 et j'ai exploré 23000 entrées d'index en un peu plus de 5 mn. Votre table des équivalences ne contient-elle pas trop d'équivalence parasites ?
Si vous arrêtez l'exploration en cours de route, vous aurez bien des doublons, mais pas tous.
 
Merci.
Juste pour que je sois bien certain de ce qui va se passer : si j'interromps, j'obtiendrai la liste standard des doublons, telle qu'illustrée dans le guide d'utilisation, simplement plus courte que si j'avais laissé les chose suivre leurs cours, et pourrai l'imprimer ?
 
Oui, c'est le même type de liste, mais à l'impression la présentation est moins élégante et en particulier l'association deux à deux des doublons n'est pas aussi bien mise en valeur, mais ils restent cote à cote.
Dans le temps que j'ai donné plus haut, les options sélectionnées étaient les trois cases à cocher qui sont dans le guide utilisateur. D'autres options sont peut-être plus lentes.
 
Bon ...
1 à zéro pour Généatique : impossible d'arrêter l'exploration. Après un clic sur le bouton ad hoc, j'ai pu contempler une dizaine de minutes le motif circulaire "action en cours" de Win 7 ( = le sablier de XP), sans effet apparent.
Donc, CTRL-Alt-Suppr, et arrêt du processus Geneatique. J'ai perdu ces 48 heures, et je ne sais toujours pas ce qu'est un doublon pour le dit programme. Je m'en remettrai ...

Suite : G13 arrêté, j'en profite pour passer de 1.0.5 à 1.0.6. Je relance la recherche de doublons en ne cochant que les trois cases cochées par défaut (ce qui est incohérent avec le manuel qui indique de désélectionner l'option "même conjoint" pour pouvoir utiliser les options de recherche approfondie). Cette fois, je ne coche pas les options de recherche élargie sur le nom et le prénom. Le résultat est obtenu -presque- en cinq minutes, mais j'obtiens l'affichage de la liste alors que la fenêtre d'état n'annonce que 30094 entrées explorées sur 30099. Cette fenêtre d'état reste ouverte, plus rien ne se passe, et seule la sortie de Généatique me permet de m'en débarrasser. Mais cette fois j'ai eu la possibilité d'imprimer ma liste de doublons. Ouf. Très intéressante d'ailleurs, même s'il est clair qu'il ne faut surtout pas fusionner tous les couples trouvés.
Ceci, c'était sur la machine Win7. Sur mon PC de bureau, un quadriprocesseur un peu plus ancien, de puissance à peu près équivalente, sous Vista 32 bits, quand je refuse de faire la sauvegarde de sécurité avant de rechercher les doublons, j'ai deux fois de suite le message "Espace insufisant pour traiter cette commande". Quel espace ?
Timoré, j'abandonne le projet.

En résumé, une fonction qui sera un jour extrêmement utile. Je vais quand même attendre une version 99.9.9 pour refaire cette expérience.
 
J'espère que ce sera avant ! C'est vrai que dès l'ouverture de cette fonction, il y a ce message de "Mémoire insuffisante", aberrant et qu'il suffit de passer. La durée excessive de votre recherche était un indice que quelque chose ne se passait pas bien. Il serait intéressant de ré-essayer avec une généalogie restructurée (niveau 1, puis 2).
 
Bonjour.
Je viens d'effectuer une recherche de doublons avec une base de 35000 personnes avec les options :
Noms des conjoints identiques
Prénoms des conjoints identiques
Utiliser les tables d'équivalences pour les noms

Le durée du traitement est de 5mn.
Il faut savoir que certaines options :
Recherche élargie sur le nom
Recherche phonétique partielle sur le nom
Recherche élargie sur les prénoms
Recherche phonétique partielle sur les prénoms

ralentissent considérablement le traitement et sont donc à utiliser avec prudence (sur de petites bases ou avec un patronyme précis) et surtout pas toutes ensembles.
Ce que vous décrivez ne me semble pas être un comportement différent des versions précédentes.
Cordialement.
Joël NIZART
 
Comme je l'ai signalé, je n'avais jamais utilisé cette fonction avec les versions précédentes, je n'ai donc pas de point de comparaison.
Ma base avait été restructurée auparavant. Mais les choses semblent s'être stabilisées depuis (pourquoi ?), et j'ai repris quelque confiance. les temps sont de l'ordre des cinq minutes standard.
Par contre, il reste que le choix de G13 est parfois surprenant : des personnes sont classées "doublons" alors qu'elles n'ont pas le même conjoint (ni le nom, ni le prénom), condition pourtant imposée au départ. Il y a là quelque chose que je n'ai pas compris pour l'instant. Je précise que je travaille sur un copie papier de la liste des doublons, et cette présentation ne met pas en évidence la séparation des "familles" de doublons.
En tout cas, cette fonction est fort utile, particulièrement lorsqu'on impose un nom pour la recherche, même si on peut s'en approcher avec la fonction de recherche ordinaire.
Bref, je n'attendrai finalement pas la version 99.9.9 ...
Merci de ces réponses.
 
Suite : petits problèmes

On récupère des candidats doublons dont le conjoint n'a pas du tout les même nom et prénom, même si on a coché "Nom des conjoints identiques" et "Prénoms des conjoints identiques". Qu'est donc censée faire cette option, puisque apparemment ce n'est pas ce qu'on pourrait naïvement penser ? Le manuel ne m'a pas éclairé sur ce point.

Dans le même genre : qu'apporte exactement l'option "Recherche élargie sur le nom" ? Idem prénom. Que peut-on élargir quand on a déjà décidé de prendre en compte les équivalences ?

Quels sont les critères de cohérence des dates, dans cette fonction ? Ceux qui sont définis dans les préférences, si je me souviens bien (auquels je n'ai pas touché depuis longtemps) : âge limite, âge de mariage, etc ..?

Un petit bug (me semble-t-il) d'affichage :
Si l'on sélectionne une personne dans la fenêtre "résultat", nom et prénom sont copiés dans la zone "Doublons à fusionner", en bas à gauche, et si l'on y clique sur la ligne, les détails de la fiche apparaissent dans la zone à droite, "Fiche de la personne sélectionnée". Jusque là, OK. Mais si on déselectionne la même personne de la fenêtre résultat, la zone "Doublons à fusionner" est bien effacée, mais pas la zone "Fiche de la personne sélectionnée". Les choses restent en l'état même si on sélectionne une autre personne dans la fenêtre résultat.

Merci par avance ...
 
Sans réponse un semestre plus tard (j'ai survécu sans peine), comme il pleut, et pris d'une audace nouvelle, je décide de refaire un essai. Par précaution, la base a été fraîchement "réparée" au sens de G13 1.2. Les options de cette recherche de doublons sont les options par défaut : noms et prénoms des conjoints identiques modulo les tables d'équivalences respectives, et cohérence des dates.
Alors deux questions pour nos béta-testeurs et gourous (pas de vraie copie d'écran, car j'ai paraît-il "dépassé mon quota") :

Dans la "copie d'écran" ci-dessous (désolé, le logiciel CDIP ne comprend pas les tabulations et trouve astucieux de compacter les groupes d'espace ; le nom de l'époux est à droite), pourquoi Marie VICTOURON mariée à Henri GOURDOLLE est-elle mise en rapport avec d'autres dames dont aucune n'a un époux nommé GOURDOLLE, sachant que ce nom n'a aucun équivalent dans la base ? Même chose pour COURSODON, ... Il me semble avoir imposé le MEME nom pour les conjoints ...


VICTOURON Marie GOURDOLLE Henri
1845...1879 VICTOURON Marie Rose Anastasie ABAUZIT Jean François Régis
1859...1882 VICTOURON Marie Augustine ACHARD Jean Pierre
1880...1976 VICTOURON Marie Clothilde Noémie ABAUZIT Régis Augustin Paul
1886...1969 VICTOURON Marie Mélanie Louise COURSODON Joseph
1930...1868 VICTOURON Marie Louise MAZOYER M.

Ce premier problème est très gênant, car il produit de longues listes de faux doublons. Si on décoche les options d'utilisation des équivalences, la fenêtre de progression fait quand même référence à une recherche dans les équivalences (mais la barre de progression reste bloquée ; pas clair ...) et le résultat reste exactement le même pour Marie VICTOURON.

De plus, mais sans copie d'écran je ne sais comment le montrer, pourquoi le nom de famille disparaît-il parfois des titres (en bleu) des paragraphes du résultat, même quand ce nom change ? Ne subsiste que le prénom :

blabla...
Doublon possible de le ROY Marie
... le ROY Marie
blabla...
Doublon possible de Pierre
... LEROY Pierre ...
blabla ...
Doublon possible de Jeanne
... SADARNOU Jeanne
blabla...
Doublon possible de Anne
... SALAGNAC Anne
blabla...
Doublon possible de TARTEMPION Jules
... TARTEMPION Jules ...
blabla...

Ce n'est bien sûr qu'un problème de présentation.

Enfin, il est dommage qu'il soit impossible de conserver affichée la fenêtre résultat ET l'écran de saisie de G13, simultanément, sans être obligé de choisir la version imprimable des pages de résultat, bien moins agréable à consulter.

Merci
 
43oasis":1pz50ohc a dit:
....
Enfin, il est dommage qu'il soit impossible de conserver affichée la fenêtre résultat ET l'écran de saisie de G13, simultanément, sans être obligé de choisir la version imprimable des pages de résultat, bien moins agréable à consulter.
Merci
Je ne vous donnerai as de recettes miracles car je n'utilise quasiment pas cet outil ; je préfère traîner mes doublons, c'est trop difficile à (bien) chasser. Mais sur le dernier point que vous soulever, on peut voir simultanément la page de résultat et l'écran de saisie : Dans le menu principal/Fenêtre vous pouvez sélectionner l'une ou l'autre fenêtre (résultats ou écran de saisie) et même les mettre en mosaïque verticale pour les avoir vraiment simultanément (quoique parfois la mozaïque ne s'effectue pas !).
 
Je viens de tester cet outil que je n'avais pas utilisé depuis un certain temps.
Point positif je constate des nouveautés et de réelles améliorations
Premier test en sélectionnant (1-2-3-4) :
Options de recherche :
1- Noms des conjoints identiques
2- Prénoms des conjoints identiques
3- Recherche de doublons dont les dates sont cohérentes
Recherche approfondie :
4- Utiliser la table des équivalences pour les noms
Tout se passe très très bien 1'20 pour 29547 d'entrées d'index explorées.
Second test en sélectionnant (1-2-3-4-5) :
Si on rajoute à ces 4 options uniquement l'option supplémentaire
5- Les doublons doivent avoir au moins un lieu en commun
Ce n'est plus du tout pareil, temps anormalement long (cela devient inexploitable)
En voulant faire " Arrêt de l'exploration"
Le bouton est inopérant dans un premier temps, besoin de cliquer plusieurs fois de suite comme un excité pour que cela finisse par s'arrêter. En outre si on regarde le temps en bas à droite il se fige parfois. Le gestionnaire de taches m'indique quant à lui 4.95 Go de mémoire consommée sur les 16 Go à ma disposition.
Je confirme que chez moi aussi il y a un problème . Peut être une incompatibilité d’association dans les différentes options de recherche ? Si vous désirez tester l'option 5 faites le sur une duplication de votre généalogie par précaution.
 
Bonsoir
Merci de cette réponse, intéressante car votre base a une taille voisine de celle que j'utilise.
Pour le premier résultat "tout se passe très bien", c'est à dire ?..
Chez moi aussi, cela va vite. Mon problème, c'est la liste que j'obtiens, où seulement quelques pour cent des candidats ont quelque chance d'être des doublons : je ne comprends vraiment pas pourquoi des personnes qui n'ont absolument pas le même conjoint sont proposées.
J'ai l'impression que cela ne marche pas vraiment mieux qu'avant (ou alors je ne comprends rien), et c'est pourtant une fonction que j'aimerais avoir, même si comme tout un chacun je chasse aussi le doublon à vue.

Il y a autre chose qui est pénible : c'est l'impression de la liste des doublons, où je rencontre les problèmes que vous signalez, avec de longs moments où G13 est gelé, où la fenêtre de l'imprimante est cachée on ne sait où, etc ... IL faut des nerfs solides à ce moment, et une grande confiance dans l'informatique ! Cela finit par arriver sur l'imprimante, qui est elle très patiente.
La brave bête ...
Ces derniers temps, G13 m'a fait redécouvrir le célèbre Ctrl-Alt-Suppr de Windows.

Mais tout n'est pas noir : cela n'a rien à voir, mais j'ai essayé l'exportation auto (dite synchronisation) vers MesArbres.Net, et, O miracle, l'opération s'est terminée en quelques minutes. Bravo aux informaticiens du CDIP, finalement.
 
43oasis":jvsoio0p a dit:
Bonsoir
Pour le premier résultat "tout se passe très bien", c'est à dire ?..
Chez moi aussi, cela va vite. Mon problème, c'est la liste que j'obtiens, où seulement quelques pour cent des candidats ont quelque chance d'être des doublons : je ne comprends vraiment pas pourquoi des personnes qui n'ont absolument pas le même conjoint sont proposées.
J'ai l'impression que cela ne marche pas vraiment mieux qu'avant (ou alors je ne comprends rien), et c'est pourtant une fonction que j'aimerais avoir, même si comme tout un chacun je chasse aussi le doublon à vue.
Quand je disais tout va bien, je parlais de la vitesse d'exécution
Quelques tests aujourd’hui avec ces 4 options pour 29547 d'entrées d'index explorées
1- Noms des conjoints identiques
2- Prénoms des conjoints identiques
3- Recherche de doublons dont les dates sont cohérentes
5- Les doublons doivent avoir au moins un lieu en commun
Test 1 avec option 1
590 doublons --> 20 sec -> Temps excellent --> Résultat pour trouver des doublons pas top
Test 2 avec option 1et 2
188 doublons --> 45 sec -> Temps excellent --> Résultat pour trouver des doublons pas top
Test 3 avec option 1et 2 et 3
142 doublons --> 1 min 15 sec -> Temps excellent --> Résultat pour trouver des doublons pas top
Test 4 avec option 1et 2 et 3 et 5
38 doublons --> 1 h 09 min -> Temps long --> Résultat aucun doublons
Sur le dernier résultat aucun doublon, en outre le nombre de doublons annoncé est erroné 23 au lieu de 38.
Conclusion
Si on prend Noms des conjoints identiques et Prénoms des conjoints identiques on devrait avoir un résultat satisfaisant, ce n'est pas actuellement le cas. L'algorithme pour trouver des doublons est perfectible tant en vitesse pour les grosses généalogies, que sur la détection elle même des doublons. J'en ai trouvé quelques uns toutefois, donc ça marche mais pas avec beaucoup d'efficacité. Une liste sélective avec des conditions idoine doit pouvoir faire aussi bien sinon mieux.
 
43oasis":3w1ejw6f a dit:
pourquoi Marie VICTOURON mariée à Henri GOURDOLLE est-elle mise en rapport avec d'autres dames dont aucune n'a un époux nommé GOURDOLLE, sachant que ce nom n'a aucun équivalent dans la base ? Même chose pour COURSODON, ... Il me semble avoir imposé le MEME nom pour les conjoints ...
Avez-vous vérifié vos équivalences noms et prénoms et notamment pour VICTOURON ?
Utilitaires --> Equivalences --> Noms --> Noms
Utilitaires --> Equivalences --> Noms --> Prénoms
 
Bien entendu. Il me semble même qu'une fonction de recherche de doublons qui n'utiliserait PAS les tables d'équivalence serait peu utile, car bien de vrais doublons proviennent de cela.

Toutes ces Maries sont là parce que "Marie" figure dans leur liste de prénoms, ce qui est logique. Mais elles ne devraient pas être là parce qu'elles ne sont pas mariées avec le même homme.
Ou alors G13 utilise une logique qui envisage systématiquement la possibilité que toutes ces Maries soient la même femme qui s'est remariée de nombreuses fois avec différents hommes. Si c'est le cas, c'est très naïf : il faudrait tenir compte des dates (il n'y en a pas toujours), des enfants des différents couples et de leurs dates de naissance, de l'identité des grands parents, des identités des personnes citées, des lieux (il n'y en a pas toujours), etc ...
Sinon cela donne des listes de candidats-doublons nécessairement phénoménales.
A mon avis, un Homo Sapiens basique fera toujours mieux sur un problème d'une telle complexité.
G13 ferait mieux de traiter correctement les cas évidents, ce serait plus utile.

Bon, pour ma part, j'abandonne.
Et je ne saurai jamais ce que signifie la mystérieuse option "Recherche élargie sur le nom" qui suit l'option "Utiliser la table d'équivalence pour les noms" ! Tant pis ...
Cordialement
43oasis
 
43oasis":19vo9qzr a dit:
....Et je ne saurai jamais ce que signifie la mystérieuse option "Recherche élargie sur le nom" qui suit l'option "Utiliser la table d'équivalence pour les noms" ! Tant pis ...
Dans la recherche de personnes, il y a une case à cocher "Recherche étendue sur le nom" qui permet, en cherchant "DUPOND" de sortir les RUPOND, DUFOND, ... et plein d'autres noms qui n'ont d'ailleurs pas grand chose à voir avec le nom chercher ! Il s'agit peut-être de la même fonction pour la recherche des doublon ; Si c'est ça, je la déconseille ...!
 
Merci.
Si c'est cela, c'est donc une sorte d'équivalence forcée avec des noms "ressemblants" mais qui ne sont pas dans la table des équivalences.
Mais alors, pour chercher la petite bête comme on dit : en quoi cela se distingue-t-il de "recherche phonétique partielle sur le nom", l'option suivante ? L'autre serait purement orthographique ?
Je sais, je n'ai qu'à essayer ...

Bof, rien de grave : ces options mal documentées correspondent à des algorithmes différents, implantés mais peu testés, et aux résultats plus ou moins imprévisibles ; on ne met pas si facilement un début d'I.A. dans un programme. On comprend que les concepteurs se soient gardés d'être trop précis.
Passons à autre chose ...

Mais ce serait bien que le manuel ne soit pas totalement muet sur ce point.
 

gratuit

Retour
Haut