• Bienvenue sur la nouvelle version du forum Guide de généalogie,

    Si vous avez du mal à vous connecter, faites une demande de réinitialisation de mot de passe : Réinitialiser mon mot de passe

Export GEDCOM au format UTF8

Membre actif
Avec la disponibilité de G17, j'espérais que l'export GEDCOM au format UTF8 serait enfin disponible. Toujours pas. Je suis donc toujours contraint de passer par un logiciel relais (PAF ou Heredis) dans lequel j'importe le GEDCOM produit par Généatique puis j'exporte au format UTF8. Ce qui me permet d'alimenter l'excellent Webtrees.
 
Moderateur
ddalbiez":202nbkcg a dit:
... dans lequel j'importe le GEDCOM produit par Généatique puis j'exporte au format UTF8. Ce qui me permet d'alimenter l'excellent Wetrees.
Les jeux de caractères/encodages disponibles dans Généatique sont tout à fait compatibles avec les normes gedcom, même avec la 5.5.1 ; ce qui n'est pas normal c'est que Wetrees n'accepte que le UTF8. Mais bien sûr, si Généatique offrait aussi le UTF8, ce ne serait pas plus mal.
 
Membre actif
predigny":167wvapy a dit:
ddalbiez":167wvapy a dit:
... dans lequel j'importe le GEDCOM produit par Généatique puis j'exporte au format UTF8. Ce qui me permet d'alimenter l'excellent Wetrees.
Les jeux de caractères/encodages disponibles dans Généatique sont tout à fait compatibles avec les normes gedcom, même avec la 5.5.1 ; ce qui n'est pas normal c'est que Wetrees n'accepte que le UTF8. Mais bien sûr, si Généatique offrait aussi le UTF8, ce ne serait pas plus mal.
Je ne partage pas votre avis. Donc, ce que vous suggérez est que le fait qu'Heredis fasse des exports au format UTF-8 est anormal? Le fait que PAF fasse des exports au format UTF-8 est anormal?
Pour votre gouverne, PAF est développé par les concepteurs du format GEDCOM!
Et contrairement à ce que laissez entendre, je n'ai pas dit que les formats fournis par le CDIP étaient incompatibles avec la norme GEDCOM.
UTF-8 est un format beaucoup plus universel et répandu.
 
Moderateur
ddalbiez":2d2xvfhr a dit:
...Donc, ce que vous suggérez est que le fait qu'Heredis fasse des exports au format UTF-8 est anormal? Le fait que PAF fasse des exports au format UTF-8 est anormal?...
Je n'ai jamais dit ça, j'ai dit qu'il n'était pas normal qu'un autre format, faisant aussi partie de la norme, ne soit pas accepté.
 
Membre actif
predigny":2u9atnrd a dit:
ddalbiez":2u9atnrd a dit:
...Donc, ce que vous suggérez est que le fait qu'Heredis fasse des exports au format UTF-8 est anormal? Le fait que PAF fasse des exports au format UTF-8 est anormal?...
Je n'ai jamais dit ça, j'ai dit qu'il n'était pas normal qu'un autre format, faisant aussi partie de la norme, ne soit pas accepté.
Comme mentionné précédemment, et comme son nom l'indique, utf-8 est universel, à la norme ISO, contrairement à ANSI, standard américain (comme son nom l'indique aussi).
Les logiciels de généalogie tournant sous Unix et faisant appel à PHP et SQL ont choisi un format universel. Il serait temps que le CDIP s'aligne de ce point de vue sur ses concurrents. Alors que, disons le, Généatique est bien supėrieur par ailleurs.
 
Membre actif
predigny":3pyxvuhs a dit:
ddalbiez":3pyxvuhs a dit:
...Donc, ce que vous suggérez est que le fait qu'Heredis fasse des exports au format UTF-8 est anormal? Le fait que PAF fasse des exports au format UTF-8 est anormal?...
Je n'ai jamais dit ça, j'ai dit qu'il n'était pas normal qu'un autre format, faisant aussi partie de la norme, ne soit pas accepté.
Quelques arguments (j'espère que vous lisez l'anglais) qui militent largement en faveur de l'UTF-8.

UTF-8 is superior in every way to ANSI. There is no reason to choose ANSI over UTF-8 in creating new applications as all computers can decode it. The only reason to be using ANSI is when you are forced to run an old application that you do not have any replacement for.

Summary:

1.UTF-8 is a widely used encoding while ANSI is an obsolete encoding scheme
2.ANSI uses a single byte while UTF-8 is a multibyte encoding scheme
3.UTF-8 can represent a wide variety of characters while ANSI is pretty limited
4.UTF-8 code points are standardized while ANSI has many different versions

Read more: Difference Between ANSI and UTF-8 | Difference Between http://www.differencebetween.net/techno ... z4OBkColkh
 
Moderateur
En export gedcom, le format par défaut de Généatique est ANSEL ; peut aussi utiliser le ANSI qui semble être préféré par Geneanet, mais je ne doute pas que UTF8 devrait aussi être proposé en export, surtout qu'il l'est à l'import.
 
Membre actif
predigny":1k1mzy1g a dit:
En export gedcom, le format par défaut de Généatique est ANSEL ; peut aussi utiliser le ANSI qui semble être préféré par Geneanet, mais je ne doute pas que UTF8 devrait aussi être proposé en export, surtout qu'il l'est à l'import.
ANSEL est une variante de l'ANSI. Cette variante a été retirée en février 2013 par l'ANSI. Mais il est encore largement utilisé par les logiciels anciens. Il est donc logique que le CDIP offre aussi cette option pour faire le lien avec Geneanet.
J'ai posé officiellement la question au CDIP.
 
Membre actif
predigny":xnqor6od a dit:
En export gedcom, le format par défaut de Généatique est ANSEL ; peut aussi utiliser le ANSI qui semble être préféré par Geneanet, mais je ne doute pas que UTF8 devrait aussi être proposé en export, surtout qu'il l'est à l'import.
Généanet, dans ses derniers outils (http://www.geneanet.org/aide/premiers-p ... net-upload), n'accepte plus l'ANSEL.
"Quels types de fichiers puis-je envoyer ?
Le logiciel accepte uniquement les fichiers GEDCOM (.ged) et la taille maximale de fichiers est de 50 Mo. Le GEDCOM ne doit pas être au format ANSEL, mais ANSI, ASCII ou UTF-8."
Encore une raison de plus pour que le CDIP rajeunisse cette option d'export GEDCOM.
 
Moderateur
Le modèle pour l'export gedcom vers Geneanet (geneanet.egc) utilise bien le format ANSI.
Je n'ai aucune idée de la complexité qu’entraînerait l'ajout du format UTF-8 pour l'export ; naïvement ça ne me semble pas être un bouleversement dans génération du gedcom ; mais on pourrait dire la même chose pour l'import et je ne comprends pas pourquoi certains logiciels n'acceptent que le UTF-8.
 
Membre actif
predigny":zibf2lvk a dit:
Le modèle pour l'export gedcom vers Geneanet (geneanet.egc) utilise bien le format ANSI.
Je n'ai aucune idée de la complexité qu’entraînerait l'ajout du format UTF-8 pour l'export ; naïvement ça ne me semble pas être un bouleversement dans génération du gedcom ; mais on pourrait dire la même chose pour l'import et je ne comprends pas pourquoi certains logiciels n'acceptent que le UTF-8.
Comme expliqué précédemment, UTF-8 est universel: il est capable de coder beaucoup plus de caractères que l'ANSI ou sa variante ANSEL. Il peut donc être utilisé par un plus grand nombre de logiciels, dans toutes sortes de langues.
 
Bonjour,
S'il s'agit d'export de gedcom vers Geneanet il faut savoir que Geneanet utilise nativement UTF-8 (sans BOM). Par ailleurs Geneanet ne lit pas tous les caractères ANSI ou plus exactement Windows-1252 pour donner le nom officiel de ce codage fabriqué par Microsoft. Œ et œ ne sont pas reconnus par Geneanet bien que Æ et æ le soient !

Mais la transformation en UTF-8 d'un gedcom codé en Windows-1252 (une sortie normale pour un gedcom fabriqué par Généatique sous Windows) est facile avec le bloc-note de Windows. Il faut toutefois disposer d'un lecteur hexadécimal (il y en a de gratuits) pour enlever les trois octets du BOM au début du fichier.

Jean Costet
 
Moderateur
Jean Costet":1aabkgil a dit:
...Il faut toutefois disposer d'un lecteur hexadécimal (il y en a de gratuits) pour enlever les trois octets du BOM au début du fichier....
Où est le BOM dans ce fichier .ged ANSI généré par Généatique ?

HEX.jpg
 
Bonsoir M. Prédigny,
Je me suis sans doute exprimé de façon trop rapide.
Le gedcom que vous montrez est un gedcom codé en ANSI comme le précise d'ailleurs son tag CHAR. Les fichiers ANSI n'ont pas de BOM (en principe indication de l'ordre des octets quand un caractère est codé sur plus d'un octet).

Par contre les fichiers codés en UTF-8 par le bloc-note de Windows en ont un. J'aurais dû écrire :
"Après avoir passé le gedcom en ANSI à la moulinette du bloc-note de Windows vous obtiendrez un gedcom en UTF-8 avec BOM. IL faudra enlever ce BOM (les trois premiers caractères du fichier) avec un lecteur hexadécimal car Geneanet ne reconnaît que les fichiers UTF-8 sans BOM".

Je fais cela depuis plus de six ans, car j'ai dans ma généalogie envoyée à Geneanet un patronyme LEBŒUF qui est massacré si j'expédie le gedcom en ANSI que me fabrique Généatique. Pensant que Geneanet avait évolué j'ai fait un essai la semaine dernière, Œ n'est toujours pas reconnu. On peut bien sûr aller dans son site Geneanet et corriger l'erreur à la main, mais s'il y a plusieurs occurrences du patronyme on risque des oublis.

Jean Costet
 
Moderateur
Jean Costet":2bksk8y2 a dit:
...J'aurais dû écrire :
"Après avoir passé le gedcom en ANSI à la moulinette du bloc-note de Windows vous obtiendrez un gedcom en UTF-8 avec BOM. IL faudra enlever ce BOM (les trois premiers caractères du fichier) avec un lecteur hexadécimal car Geneanet ne reconnaît que les fichiers UTF-8 sans BOM"....
Merci, je comprends mieux comme cela. C'est bon a savoir, mais je suis d'accord avec ddalbiez : le cdip devrait proposer ce codage qui semble assez simple à implémenter.
 
Moderateur
J'ai fait la manip. avec Notepad.exe et supprimé les trois premiers octets (ef bb bf), mais on voit que le texte contient toujours la référence aux caractères ANSI ; est-ce normal ?

HEX-2.jpg
 
Membre actif
predigny":1at68won a dit:
je ne comprends pas pourquoi certains logiciels n'acceptent que le UTF-8.
C'est un choix que font les développeurs entre un format universel capable de représenter tous les caractères vs un format obsolète limité. UTF-8 ne présente pas de variantes, alors qu'ANSI est adapté selon les besoins (par exemple ANSEL). ANSI, standard aléricain a été abandonné en 2013 au profit d'UTF-8 standard international de l'ISO.
Ceci dit, pas mal de logiciels même nouveau acceptent l'ANSI pour des raisons historiques. En général pas l'ANSEL.
Je vous rappelle que je vous ai fait un copié-collé de l'argumentaire UTF-8 vs ANSI. Plus haut dans le thread. Cet argumentaire est en anglais.
 
Moderateur
ddalbiez":24xoywqh a dit:
predigny":24xoywqh a dit:
je ne comprends pas pourquoi certains logiciels n'acceptent que le UTF-8.
C'est un choix que font les développeurs entre un format universel capable de représenter tous les caractères vs un format obsolète limité.
Je vous ai fait un copier-coller de l'argumentaire UTF-8 vs ANSI. Plus haut dans le thread. Cet argumentaire est en anglais.
L'anglais technique ne me pose pas trop de problème, mais de toute façon je suis maintenant convaincu de l'intérêt du UFT-8 et convaincu aussi que le cdip doit vite faire quelque chose....
 
Membre actif
predigny":fixbv6pb a dit:
je suis maintenant convaincu de l'intérêt du UFT-8 et convaincu aussi que le cdip doit vite faire quelque chose....
Croisons les doigts. Je réclamais ce format dès décembre 2006!!!! Avec le succès que l'on sait.
Quand je pense que les inventeurs du format GEDCOM ont inclus l'export au format UTF-8 dans leur logiciel très "spartiate" PAF5 depuis plus de 10'ans!
 
Bonjour,
Compte-tenu des récentes interventions je crois utile de préciser un point sur ma manière de procéder.
Avant d'ouvrir le gedcom avec le bloc-note de windows j'opère deux modifications du fichier à la main.
Tout d'abord j'écris CHAR UTF-8 au lieu de Char ANSI dans le texte et ensuite je modifie l'extension du fichier de .ged en .txt (je ne suis pas certain que ce soit indispensable).
Après l'enregistrement de la codification en UTF-8 je rétablis bien sûr l'extension .ged.
Jean Costet
 
Haut