• Bienvenue sur la nouvelle version du forum Guide de généalogie,

    Si vous avez du mal à vous connecter, faites une demande de réinitialisation de mot de passe : Réinitialiser mon mot de passe
  • Découvrez la nouvelle section du forum : Réalisations dans Généatique. Montrez et partagez vos créations d'arbres dans Généatique !
    Et participez au concours !

A quand un export gedcom au format UTF-8 ?

Membre actif
Bonjour,

Pour l'export gedcom d'un fichier contenant, au passage, des patronymes avec le caractère spécial ß, j'avais choisi le format ANSEL comme conseillé.
Si les patronymes sont bien exportés dans le fichier gedcom, il en est tout autrement dans le logiciel d'import qui ne les reprend pas du tout. Certaines personnes de la base perdent de ce fait leur nom à l'import.

Le "conseillé" pour le format ANSEL ne semble pas d'actualité. A décharge, un export avec le format Windows n'engendre pas le problème.

Adopter pour l'export gedcom un format universel toutes langues et au goût du jour comme UTF-8 serait peut-être la solution pour éviter de se poser la question de la bonne prise en compte des caractères spéciaux ?

La balle est dans le camp du CDIP.
 
En effet ce format devrait être proposé à l'export ; ça a été demandé plusieurs fois au cdip.
En attendant, une solution avait été proposée d'ouvrir le fichier gedcom dans Notepade et de "l'enregistrer sous" avec le codage UTF-8.
 
Bonjour,

predigny":1fmz8fin a dit:
En effet ce format devrait être proposé à l'export ; ça a été demandé plusieurs fois au cdip.
En attendant, une solution avait été proposée d'ouvrir le fichier gedcom dans Notepade et de "l'enregistrer sous" avec le codage UTF-8.
Merci de votre réponse.

Je vais tester cette solution mais avec un fichier de plus de 155 000 fiches, reprendre l'import dans Heredis est pénible car cela dure un temps certain.
 
Bonjour,

predigny":1t7cct13 a dit:
une solution avait été proposée d'ouvrir le fichier gedcom dans Notepade et de "l'enregistrer sous" avec le codage UTF-8.
J'ai fait le test hier avec un export ANSEL comme conseillé puis ouverture du gedcom avec mon éditeur de texte Sublime Text 3 et transformation en UTF-8 tout court.

Résultat, cela ne fonctionne pas correctement. Les caractères accentués sont mal repris dans l'import.

export10.png


De plus, les illustrations nommées avec caractères accentués ne sont également pas reprises.

La transformation en UTF-8 après un export dans un format autre n'est donc pas la bonne solution.

Cela est logique car le format d'export transforme certains caractères que le format de transformation ne reprend pas "à sa sauce".

Donc si le CDIP voulait bien mettre les mains dans le cambouis, cela nous arrangerait. Cela serait plus utile que certains gadgets qui ont été développés.

Amicalement.
 
pguibert":3mpoty2w a dit:
Pour l'export gedcom d'un fichier contenant, au passage, des patronymes avec le caractère spécial ß, j'avais choisi le format ANSEL comme conseillé.
Au lieu de choisir l'export gedcom en ANSEL vous faites l'export en choisissant ANSI puis avec
notepad ++ (sous windows)
Menu édition /sélectionner tout (CTRL A)
Menu /Encodage /Convertir en UTF-8 sans BOM
L'import devrait bien se passer
 
Bonjour,

jlturbe":2ubyfu4k a dit:
Au lieu de choisir l'export gedcom en ANSEL vous faites l'export en choisissant ANSI puis avec
notepad ++ (sous windows)
Menu édition /sélectionner tout (CTRL A)
Menu /Encodage /Convertir en UTF-8 sans BOM
L'import devrait bien se passer
Je vous remercie beaucoup de m'indiquer cette procédure.

Je me demande pourquoi le format ANSEL est conseillé par le CDIP plutôt qu'un autre.

Amicalement.
 
ANSEL est l'encodage préféré par la norme GEDCOM, utiliser UTF-8 expose à des aléas imprévisibles ! voilà pourquoi :
cf. wikipedia :
GEDCOM
La spécification GEDCOM pour l'échange de données généalogiques fait référence à ANSEL (ANSI/NISO Z39.47-1985) comme un format d'encodage valide pour les fichiers GEDCOM et l'étend avec des caractères additionnels présentés dans la table ci-dessous:

Hex Unicode Glyph Description
0xBE 25A1 □ boîte vide
0xBF 25A0 ■ boîte pleine
0xCD 0065 e midline e
0xCE 006F o midline o
0xCF 00DF ß es zet
0xFC 0338 ̸ slash diacritique sur caractère
 
Pour "pguibert""
Bonjour,
Vous dites que le codage UTF-8 ne marche pas sur Genenet pour certains caractères et vous en donnez la preuve. Je l'utilise moi-même sans problème depuis dix ans. Nous sommes sérieux tous les deux Je pense avoir trouvé ce qui pourrait être une explication.

Il y a deux sortes de codage UTF-8, avec ou sans BOM (trois caractères ajoutés au début du texte). Windows crée des fichiers UTF-8 avec BOM. Or Geneanet ne sait pas lire les fichiers avec BOM, par contre il est à l'aise avec les fichiers de l'autre catégorie les fichiers sans BOM. Si vous avez envoyé à Geneanet un fichier avec BOM vous devez avoir le résultat que vous avez montré.

Pour fabriquer un fichier sans BOM lisible par Geneanet je commence par fabriquer avec Word ou Notepad un fichier avec BOM. Puis avec un lecteur hexadécimal je supprime les trois premiers caractères (le BOM) et envoie le tout à Geneanet; cela marche sans problème. C'est gratuit et assez simple.

Il serait souhaitable bien sûr que le CDIP fasse ce travail à notre place.

J'avais essayé une position de repli avec l'ANSI (alias Windows). Ce codage ANSI sait traiter les æ et œ et leurs majuscules. Malheureusement Geneanet sait lire dans ce codage les æ mais pas les œ ! Plus de sœurs ni de cœurs passe encore mais pour moi qu ai un ancêtre Lebœuf c'est rédhibitoire d'où mon attachement à UTF-8.

Jean Costet (sur Geneanet lardechois)
 
Bonsoir,

dan_69007":1u6m1m44 a dit:
ANSEL est l'encodage préféré par la norme GEDCOM, utiliser UTF-8 expose à des aléas imprévisibles ! voilà pourquoi :
cf. wikipedia :
GEDCOM
La spécification GEDCOM pour l'échange de données généalogiques fait référence à ANSEL (ANSI/NISO Z39.47-1985) comme un format d'encodage valide pour les fichiers GEDCOM et l'étend avec des caractères additionnels présentés dans la table ci-dessous:

Hex Unicode Glyph Description
0xBE 25A1 □ boîte vide
0xBF 25A0 ■ boîte pleine
0xCD 0065 e midline e
0xCE 006F o midline o
0xCF 00DF ß es zet
0xFC 0338 ̸ slash diacritique sur caractère
Je vous remercie pour ces précisions.

Amicalement.
 
Bonsoir,

Jean Costet":3mbprmgu a dit:
Pour "pguibert""
Vous dites que le codage UTF-8 ne marche pas sur Genenet
Je vous remercie de votre réponse.

Je n'ai pas évoqué Geneanet mais l'export gedcom depuis Généatique pour un import dans un autre logiciel de généalogie.

Jean Costet":3mbprmgu a dit:
Pour fabriquer un fichier sans BOM lisible par Geneanet je commence par fabriquer avec Word ou Notepad un fichier avec BOM. Puis avec un lecteur hexadécimal je supprime les trois premiers caractères (le BOM) et envoie le tout à Geneanet; cela marche sans problème. C'est gratuit et assez simple.
Je vous remercie pour cette procédure que je note immédiatement dans mon petit carnet.

Jean Costet":3mbprmgu a dit:
Il serait souhaitable bien sûr que le CDIP fasse ce travail à notre place.
Je ne peux qu'acquiescer. :)

Jean Costet":3mbprmgu a dit:
J'avais essayé une position de repli avec l'ANSI (alias Windows). Ce codage ANSI sait traiter les æ et œ et leurs majuscules. Malheureusement Geneanet sait lire dans ce codage les æ mais pas les œ ! Plus de sœurs ni de cœurs passe encore mais pour moi qu ai un ancêtre Lebœuf c'est rédhibitoire d'où mon attachement à UTF-8.
Ce que j'ai fait hier soir : export ANSI puis ouverture du gedcom dans un éditeur de texte, changement de 1 CHAR ANSI par 1 CHAR UTF-8 et enregistrement du gedcom au format UTF-8.
Pour l'instant je n'ai pas trouvé d'anomalie mais il faut que vérifie encore pendant un temps pour être sûre.

Il faut que je cherche si j'ai des personnes avec œ dans leur patronyme. :wink:

Bonne soirée.
 
Le format ANSEL c'est de la préhistoire. Tous les logiciels sérieux utilisent le format UTF-8, en général sans BOM.
Ceci dit notepad ++ convertit très simplement, en un seul clic, entre UTF-8 avec BOM et UTF-8 sans BOM.

Petite précision : le BOM n'est pas 3 caractères, mais un caractère sur 3 octets, qui ne s'affiche pas. C'est le caractère nul non justifiant ou espace insécable sans chasse, qui permet de détecter le type de système (boutisme ou endianness) sur lequel on est mais qui dans la pratique ne sert pas à grand chose. On trouvera des précisions sur Indicateur d'ordre des octets — Wikipédia
 
ANSEL est l'encodage préféré par la norme GEDCOM, utiliser UTF-8 expose à des aléas imprévisibles ! voilà pourquoi :
cf. wikipedia :
GEDCOM
La spécification GEDCOM pour l'échange de données généalogiques fait référence à ANSEL (ANSI/NISO Z39.47-1985) comme un format d'encodage valide pour les fichiers GEDCOM et l'étend avec des caractères additionnels présentés dans la table ci-dessous:

Hex Unicode Glyph Description
0xBE 25A1 □ boîte vide
0xBF 25A0 ■ boîte pleine
0xCD 0065 e midline e
0xCE 006F o midline o
0xCF 00DF ß es zet
0xFC 0338 ̸ slash diacritique sur caractère
La nouvelle norme GEDCOM 7.0, sortie cette année, utilise UTF-8 et seulement UTF-8. Mais avant que le CDIP intègre la norme GEDCOM 7.0, je pense que de l'eau va passer sous les ponts....
 
Dernière édition:
Bonjour,


Merci de votre réponse.

Je vais tester cette solution mais avec un fichier de plus de 155 000 fiches, reprendre l'import dans Heredis est pénible car cela dure un temps certain.
Effectivement, l'import de gedcom dans Heredis est très très long. En fait, parmi tous les logiciels de généalogie que j'ai pu utiliser, Heredis est le moins performant pour l'import.
 
La nouvelle norme GEDCOM 7.0, sortie cette année, utilise UTF-8 et seulement UTF-8. Mais avant que le CDIP intègre la norme GEDCOM7.0, je pense que de l'eau va passer sous les ponts....
Cela confirme bien ce qui était une évidence depuis quelques temps déjà : l'avenir est dans UTF-8.
Quant à la référence à Wikipedia faite par dan_69007, elle est sortie de son contexte. C'est une phrase de l'article "ANSEL", qui dit que ANSEL est un format valide pour GEDCOM mais qui ne dit en aucun cas que c'est le format préféré.
De plus, cet article de wikipedia n'est visiblement pas à jour. En effet il fait référence à GEDCOM 5.5 qui date de 1995 alors que GEDCOM 5.5.1 existait dès 1996.
Par rapport à GEDCOM 7.0, il faut noter la possibilité, pour un lieu ou un nom de personne, d'avoir plusieurs variantes. Par exemple : alphabet d’origine (日本), transcription (Nihon), traduction (Japon). Ou pour une personne : alphabet d’origine (ابن سینا), transcription (Ebn-e Sinâ), traduction (Avicenne).
Mais comme vous dites très justement il faut attendre que les logiciels prennent tout ça en compte.
 
Cela confirme bien ce qui était une évidence depuis quelques temps déjà : l'avenir est dans UTF-8.
Quant à la référence à Wikipedia faite par dan_69007, elle est sortie de son contexte. C'est une phrase de l'article "ANSEL", qui dit que ANSEL est un format valide pour GEDCOM mais qui ne dit en aucun cas que c'est le format préféré.
De plus, cet article de wikipedia n'est visiblement pas à jour. En effet il fait référence à GEDCOM 5.5 qui date de 1995 alors que GEDCOM 5.5.1 existait dès 1996.
Par rapport à GEDCOM 7.0, il faut noter la possibilité, pour un lieu ou un nom de personne, d'avoir plusieurs variantes. Par exemple : alphabet d’origine (日本), transcription (Nihon), traduction (Japon). Ou pour une personne : alphabet d’origine (ابن سینا), transcription (Ebn-e Sinâ), traduction (Avicenne).
Mais comme vous dites très justement il faut attendre que les logiciels prennent tout ça en compte.
J'ai demandé cette option d'export au format UTF-8 depuis décembre 2006 ! Le CDIP a procrastiné, repoussant d'année en année, invoquant comme excuse que la demande avait été transmise au service développement. Le résultat est là: 14 ans et quelques plus tard, rien de fait. Il faut dire que le CDIP a fort à faire pour stabiliser une version de Geneatique (G21) visiblement mal ou insuffisamment testée, probablement la version qui pose le plus de problème depuis bien longtemps. D'ici 3 mois 1/2, Geneatique 22 devrait être proposé et G21 n'évoluera probablement plus. À méditer. Bon été à tous.
 
Pour le UTF-8, c'eut été facile à faire mais aller plus loin n' a guère de sens tant que ce sera la "tour de Babel" sur ce que font les diverses logiciels de généalogie. Quant à la "nouvelle" norme gedcom... il en sort une nouvelle tous les ans et elles se veulent toutes plus "officielles" les unes que les autres !
 
J'ai demandé cette option d'export au format UTF-8 depuis décembre 2006 ! Le CDIP a procrastiné, repoussant d'année en année, invoquant comme excuse que la demande avait été transmise au service développement. Le résultat est là: 14 ans et quelques plus tard, rien de fait. Il faut dire que le CDIP a fort à faire pour stabiliser une version de Geneatique (G21) visiblement mal ou insuffisamment testée, probablement la version qui pose le plus de problème depuis bien longtemps. D'ici 3 mois 1/2, Geneatique 22 devrait être proposé et G21 n'évoluera probablement plus. À méditer. Bon été à tous.

Pour le UTF-8, c'eut été facile à faire mais aller plus loin n' a guère de sens tant que ce sera la "tour de Babel" sur ce que font les diverses logiciels de généalogie. Quant à la "nouvelle" norme gedcom... il en sort une nouvelle tous les ans et elles se veulent toutes plus "officielles" les unes que les autres !
Comme vous dites, il y a des normes qui se disent officielles et qui ne le sont pas.
Les seules normes officielles sont :
5.5 : 1995
5.5.1 : 1996, confirmée en 2019
7.0.2 : juin 2021
Sur le fait que les logiciels ne suivent pas la norme et introduisent des spécificités, je suis d'accord avec vous et je le déplore.
La version 7 n'est pas une révolution mais introduit quelques nouveautés intéressantes, en particulier le fait que le mot-clé ASSO peut être utilisé dans une famille et dans les évènements (ce que Heredis avait anticipé).
La vraie nouveauté serait un changement de format pour passer à du JSON ou du XML. Les études sont en cours mais on ne sait pas quand ça aboutira (même si la sortie de la 7 alors que l'on croyait que tout était arrêté ,nous redonne de l'espoir). Le principe du format actuel est du hiérarchique (les RECORD) et un peu de relationnel (les liens entre RECORD : CITATION). Mais sa forme est mauvaise car une ligne n'a de sens que par rapport aux lignes précédentes.
 
J'ai demandé cette option d'export au format UTF-8 depuis décembre 2006 ! Le CDIP a procrastiné, repoussant d'année en année, invoquant comme excuse que la demande avait été transmise au service développement. Le résultat est là: 14 ans et quelques plus tard, rien de fait. Il faut dire que le CDIP a fort à faire pour stabiliser une version de Geneatique (G21) visiblement mal ou insuffisamment testée, probablement la version qui pose le plus de problème depuis bien longtemps. D'ici 3 mois 1/2, Geneatique 22 devrait être proposé et G21 n'évoluera probablement plus. À méditer. Bon été à tous.

Heredis est plus en avance, bien qu'il y ait des bugs.
Par exemple en version 14 (2014), dans l'export GEDCOM, Heredis découpe les notes en plusieurs lignes suites (mot-clé CONC). Mais il découpe selon une longueur fixe. Or en UTF-8, les caractères ont un nombre d'octets variables. Ils n'en ont pas tenu compte et il peut arriver qu'un caractère de 2 ou 3 octets soit coupé au milieu, ce qui dénature le texte.
Je ne sais pas si ce bug est corrigé dans les versions ultérieures.
L'unicode suppose, qu'en plus de la prise en compte d'une police unicode, il y ait un modèle de rendu pour traiter par exemple le bidirectionnel (arabe par exemple) ou le contextuel (arabe par exemple où la forme d'une lettre diffère si elle est initiale, médiane ou finale).
Bref des choses pas forcément évidentes même si les outils de développement doivent pouvoir apporter une aide (Heredis et généatique sont développés tous les deux en Delphi, c'est à dire Pascal, avec une base open source Sqlite pour Heredis, et une base alpha five pour généatique).
Cette difficulté n'est néanmoins pas une excuse pour ne pas l'avoir fait.
 
Les seules normes officielles sont :
5.5 : 1995
5.5.1 : 1996, confirmée en 2019
7.0.2 : juin 2021
Sur le fait que les logiciels ne suivent pas la norme et introduisent des spécificités, je suis d'accord avec vous et je le déplore.
Le point de convergence de l'ensemble des logiciels de généalogie, c'est la norme GEDCOM.
C'est un peu le "code de la route" de la généalogie.
Je suis surpris que les développeurs (et pas seulement le CDIP) n'intègrent pas ce langage universel comme ligne de conduite.
 
L'attitude par rapport à une norme est toujours ambiguë.
Un logiciel a intérêt à suivre la norme pour pouvoir dire que l'utilisateur peut échanger avec d'autres (en particulier Geneanet).
Mais il a aussi intérêt à introduire des divergences, pour créer des utilisateurs captifs.
Et c'est à l'utilisateur de savoir ce qu'il peut utiliser pour être le plus possible compatible. Ce que l'utilisateur fait très rarement car il faut se plonger dans les spécifications du GEDCOM.
Le résultat est que c'est le logiciel qui importe qui doit faire des transformations de ce qui est hors norme. C'est ce que fait par exemple GENEANET, qui est capable de prendre en compte les particularités des principaux logiciels.

Il faut aussi dire que la faute vient de la norme elle-même qui à la fois est trop riche et comporte des manques, et qui a très peu évolué alors qu'elle aurait dû.
 

gratuit

Retour
Haut