• Bienvenue sur la nouvelle version du forum Guide de généalogie,

    Si vous avez du mal à vous connecter, faites une demande de réinitialisation de mot de passe : Réinitialiser mon mot de passe
  • Découvrez la nouvelle section du forum : Réalisations dans Généatique. Montrez et partagez vos créations d'arbres dans Généatique !
    Et participez au concours !

G2023/24- Bug import/export gedcom UTF8 - Limité ANSEL/ANSI, UNICODE non supporté

Membre actif
BétaTesteur Généatique
Bonjour,
Finalement l'arrivée de l'UTF-8 en export gedcom avec G2023 V4.0 est une 1/2 bonne nouvelle.
In fine :mad: Généatique n'est pas complétement compatible UTF-8

Avec G2023 (V4.7) :
- Le jeu de caractère Windows 1252 est bien importé/exporté en UTF-8 via Gedcom :)
- Le traitement de texte permet de saisir des caractères UNICODE divers (latin, grec, Cyrillique, ...) :)
- les différents champs des rubriques restent limités au jeu de caractères ANSI (par exemple impossible d'y écrire Москва (Moscou) :( )

Et l'import/export reste limité au jeu de caractère Windows 1252 (cas texte brut), impossible d'importer/exporter autre chose :
- à l'import du texte contenant les caractères "non ANSI" sont transformés en ? :(
- à l'export idem, si on met des caractères "non ANSI" dans les notes ils se trouvent transformés en ? dans le gedcom :(

Donc même si on peut mettre, par exemple, un texte en Cyrillique dans les notes/transcription, ce n'est par exporté/importé en gedcom au format UTF-8 (cela devrait) (n)
Je laisse les beta-testeurs le signaler au CDIP

A cela, il faut ajouter deux comportements ne posant pas vraiment de problème mais à corriger :
- L'entete Gedcom indique 5.5 au lieu 5.5.1 (tag GEDC); L'UTF-8 nécessitant de mettre 5.5.1
- Un Gedcom UTF-8 est créé avec des fins de ligne avec LF seulement (conforme gedcom) au lieu de CR/LF (le standard sous Windows et ce qui se passe quand on fait un export ANSEL/ANSI); G2023 n'est pas homogène dans les caractères de fin de ligne; il devrait toujours utiliser CR/LF (conforme aussi Gedcom)

Cordialement
Thierry
exemple de note Gedcom en UTF-8 non supporté (partiellement; ie l'intersection avec Windows 1252):
Code:
1 NOTE Test UTF-8
2 CONT Latin de base
2 CONT U+0020   ! " # $ % & ' ( ) * + , - . /
2 CONT U+0030 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
2 CONT U+0040 @ A B C D E F G H I J K L M N O
2 CONT U+0050 P Q R S T U V W X Y Z [ \ ] ^ _
2 CONT U+0060 ` a b c d e f g h i j k l m n o
2 CONT U+0070 p q r s t u v w x y z { | }
2 CONT Supplément Latin-1
2 CONT U+0080   ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ -
2 CONT U+00B0 ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿
2 CONT U+00C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
2 CONT U+00D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
2 CONT U+00E0 à á â ã ä å æ ç è é ê ë ì í î ï
2 CONT U+00F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
2 CONT Latin Etendu A
2 CONT U+0100 Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď
2 CONT U+0110 Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ
2 CONT U+0120 Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į
2 CONT U+0130 İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ
2 CONT U+0140 ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ
2 CONT U+0150 Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş
2 CONT U+0160 Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů
2 CONT U+0170 Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ
2 CONT Latin Etendu B
2 CONT U+0180 ƀ Ɓ Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə
2 CONT U+0190 Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ ƙ ƚ ƛ Ɯ Ɲ ƞ Ɵ
2 CONT U+01A0 Ơ ơ Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư
2 CONT U+01B0 ư Ʊ Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ
2 CONT U+01C0 ǀ ǁ ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ
2 CONT U+01D0 ǐ Ǒ ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ
2 CONT U+01E0 Ǡ ǡ Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ
2 CONT U+01F0 ǰ DZ Dz dz Ǵ ǵ Ƕ Ƿ Ǹ ǹ Ǻ ǻ Ǽ ǽ Ǿ ǿ
2 CONT U+0200 Ȁ ȁ Ȃ ȃ Ȅ ȅ Ȇ ȇ Ȉ ȉ Ȋ ȋ Ȍ ȍ Ȏ ȏ
2 CONT U+0210 Ȑ ȑ Ȓ ȓ Ȕ ȕ Ȗ ȗ Ș ș Ț ț Ȝ ȝ Ȟ ȟ
2 CONT U+0220 Ƞ ȡ Ȣ ȣ Ȥ ȥ Ȧ ȧ Ȩ ȩ Ȫ ȫ Ȭ ȭ Ȯ ȯ
2 CONT U+0230 Ȱ ȱ Ȳ ȳ ȴ ȵ ȶ ȷ ȸ ȹ Ⱥ Ȼ ȼ Ƚ Ⱦ ȿ
2 CONT U+0240 ɀ Ɂ ɂ Ƀ Ʉ Ʌ Ɇ ɇ Ɉ ɉ Ɋ ɋ Ɍ ɍ Ɏ ɏ
2 CONT Latin étendu - alphabet phonétique international
2 CONT U+0250 ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ
2 CONT U+0260 ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ
2 CONT U+0270 ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ
2 CONT U+0280 ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ
2 CONT U+0290 ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ
2 CONT U+02A0 ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ ʩ ʪ ʫ ʬ ʭ ʮ ʯ
2 CONT Lettres modificatives avec chasse
2 CONT U+02B0 ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ʹ ʺ ʻ ʼ ʽ ʾ ʿ
2 CONT U+02C0 ˀ ˁ ˂ ˃ ˄ ˅ ˆ ˇ ˈ ˉ ˊ ˋ ˌ ˍ ˎ ˏ
2 CONT U+02D0 ː ˑ ˒ ˓ ˔ ˕ ˖ ˗ ˘ ˙ ˚ ˛ ˜ ˝ ˞ ˟
2 CONT U+02E0 ˠ ˡ ˢ ˣ ˤ ˥ ˦ ˧ ˨ ˩ ˪ ˫ ˬ ˭ ˮ ˯
2 CONT U+02F0 ˰ ˱ ˲ ˳ ˴ ˵ ˶ ˷ ˸ ˹ ˺ ˻ ˼ ˽ ˾ ˿
2 CONT Grec et copte
2 CONT U+0370 Ͱ ͱ Ͳ ͳ ʹ ͵ Ͷ ͷ   ͺ ͻ ͼ ͽ ; Ϳ
2 CONT U+0380   ΄ ΅ Ά · Έ Ή Ί   Ό   Ύ Ώ
2 CONT U+0390 ΐ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
2 CONT U+03A0 Π Ρ   Σ Τ Υ Φ Χ Ψ Ω Ϊ Ϋ ά έ ή ί
2 CONT U+03B0 ΰ α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
2 CONT U+03C0 π ρ ς σ τ υ φ χ ψ ω ϊ ϋ ό ύ ώ Ϗ
2 CONT U+03D0 ϐ ϑ ϒ ϓ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ ϝ Ϟ ϟ
2 CONT U+03E0 Ϡ ϡ Ϣ ϣ Ϥ ϥ Ϧ ϧ Ϩ ϩ Ϫ ϫ Ϭ ϭ Ϯ ϯ
2 CONT U+03F0 ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϸ ϸ Ϲ Ϻ ϻ ϼ Ͻ Ͼ Ͽ
2 CONT Cyrillique
2 CONT U+0400 Ѐ Ё Ђ Ѓ Є Ѕ І Ї Ј Љ Њ Ћ Ќ Ѝ Ў Џ
2 CONT U+0410 А Б В Г Д Е Ж З И Й К Л М Н О П
2 CONT U+0420 Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
2 CONT U+0430 а б в г д е ж з и й к л м н о п
2 CONT U+0440 р с т у ф х ц ч ш щ ъ ы ь э ю я
2 CONT U+0450 ѐ ё ђ ѓ є ѕ і ї ј љ њ ћ ќ ѝ ў џ
2 CONT U+0460 Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ Ѭ ѭ Ѯ ѯ
2 CONT U+0470 Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ Ѽ ѽ Ѿ ѿ
2 CONT U+0480 Ҁ ҁ ҂ о҃ о҄ о҅ о҆ о҇ о҈ о҉ Ҋ ҋ Ҍ ҍ Ҏ ҏ
2 CONT U+0490 Ґ ґ Ғ ғ Ҕ ҕ Җ җ Ҙ ҙ Қ қ Ҝ ҝ Ҟ ҟ
2 CONT U+04A0 Ҡ ҡ Ң ң Ҥ ҥ Ҧ ҧ Ҩ ҩ Ҫ ҫ Ҭ ҭ Ү ү
2 CONT U+04B0 Ұ ұ Ҳ ҳ Ҵ ҵ Ҷ ҷ Ҹ ҹ Һ һ Ҽ ҽ Ҿ ҿ
2 CONT U+04C0 Ӏ Ӂ ӂ Ӄ ӄ Ӆ ӆ Ӈ ӈ Ӊ ӊ Ӌ ӌ Ӎ ӎ ӏ
2 CONT U+04D0 Ӑ ӑ Ӓ ӓ Ӕ ӕ Ӗ ӗ Ә ә Ӛ ӛ Ӝ ӝ Ӟ ӟ
2 CONT U+04E0 Ӡ ӡ Ӣ ӣ Ӥ ӥ Ӧ ӧ Ө ө Ӫ ӫ Ӭ ӭ Ӯ ӯ
2 CONT U+04F0 Ӱ ӱ Ӳ ӳ Ӵ ӵ Ӷ ӷ Ӹ ӹ Ӻ ӻ Ӽ ӽ Ӿ ӿ
2 CONT Cyrillique – supplément
2 CONT U+0500 Ԁ ԁ Ԃ ԃ Ԅ ԅ Ԇ ԇ Ԉ ԉ Ԋ ԋ Ԍ ԍ Ԏ ԏ
2 CONT U+0510 Ԑ ԑ Ԓ ԓ Ԕ ԕ Ԗ ԗ Ԙ ԙ Ԛ ԛ Ԝ ԝ Ԟ ԟ
2 CONT U+0520 Ԡ ԡ Ԣ ԣ Ԥ ԥ Ԧ ԧ Ԩ ԩ Ԫ ԫ Ԭ ԭ Ԯ ԯ
2 CONT Arménien
2 CONT U+0530   Ա Բ Գ Դ Ե Զ Է Ը Թ Ժ Ի Լ Խ Ծ Կ
2 CONT U+0540 Հ Ձ Ղ Ճ Մ Յ Ն Շ Ո Չ Պ Ջ Ռ Ս Վ Տ
2 CONT U+0550 Ր Ց Ւ Փ Ք Օ Ֆ   ՙ ՚ ՛ ՜ ՝ ՞ ՟
2 CONT U+0560 ՠ ա բ գ դ ե զ է ը թ ժ ի լ խ ծ կ
2 CONT U+0570 հ ձ ղ ճ մ յ ն շ ո չ պ ջ ռ ս վ տ
2 CONT U+0580 ր ց ւ փ ք օ ֆ և ֈ ։ ֊   ֍ ֎ ֏
 
Dernière édition:
Généatique n'a jamais été très porté vers l'international et je pense que pour des textes en français il n'y a pas trop de problèmes. Reste le nom des lieux étrangers où les puristes voudront les écrire dans la langue locale mais est-ce vraiment ne bonne idée ?
Je remonte ces remarques au cdip.
 
est-ce vraiment une bonne idée ?
Les autres logiciels le font (HEREDIS, ANCESTRIS, etc...)
Pour les transcriptions c'est tout de même mieux; Pour le nom des lieux c'est effectivement une histoire de puristes.

Même si effectivement Geneatique n'est pas très multilingue, il vaut mieux éviter de perdre des caractères lors d'un import Gedcom.

Cordialement
Thierry
 
Dernière édition:
Complément : A noter aussi que si on régénère sa généalogie par export/réimport gedcom, ( cf Export-Import gedcom pour régénérer une base de données )
il y a perte de caractères dans le cas où les notes contiennent des caractères "non ANSI" si on ne met pas l'export des notes en RTF (ce qu'il faut faire de toutes façons pour ne pas perdre les mises en forme) (*)

Cordialement
Thierry
(*) A noter que l'export en format RTF est buggé et non compris complétement par les autres logiciels. En l'occurence pour les caractéres "non ANSI/Unicode>+0100" il y a des ? en trop
 
Dernière édition:
Complément : A noter aussi que si on régénère sa généalogie par export/réimport gedcom, ( cf Export-Import gedcom pour régénérer une base de données )
il y a perte de caractères dans le cas où les notes contiennent des caractères "non ANSI" si on ne met pas l'export des notes en RTF (ce qu'il faut faire de toutes façons pour ne pas perdre les mises en forme) (*)

Cordialement
Thierry
(*) A noter que l'export en format RTF est buggé et non compris complétement par les autres logiciels. En l'occurence pour les caractéres "non ANSI/Unicode>+0100" il y a des ? en trop
"Si on ne met pas l'export des notes en RTF (ce qu'il faut faire de toutes façons pour ne pas perdre les mises en forme) (*)'
Bonjour, A ce sujet: Comment doit on procéder pour avoir une restitution uniforme en polices, retour à la ligne, mise en forme, en général, des notes associées aux différents événements. Je crée souvent des notes par copié collé de multiples origines, qui ont toutes sortes de polices. Parfois j'ai de mauvais résultats surtout dans la mise en forme, car curieusement il semble que de multiples polices présentes ne changent rien, tout sort avec la même, mais souvent avec des justifications qui ne passent pas au travers sur quelques lignes etc. Merci
 
Comment doit on procéder pour avoir une restitution uniforme en polices, retour à la ligne, mise en forme, en général, des notes associées aux différents événements.
Bonjour,

En résumé : Il n'existe pas de méthode avec les logiciels du commerce actuels.

Plus précisément :
A ma connaissance pas de problème de Géneatique à Généatique (sauf UTF-8 comme dit dans le précédent post).
Vers d'autres logiciels, qui supportent le RTF, il n'y a pas de méthode à coup sûr. (le RTF n'étant jamais implémenté complément).
Pour les logiciels qui ne supportent par le RTF, dans le meilleur des cas ils filtrent le codage RTF. Par exemple avec Geneanet les mises en formes et polices sont perdues.

La spécification GEDCOM ne définit en version 5.x que le codage texte brut. Le reste est une extension à la spécification et donc ce n'est pas universel. Pour avoir une restitution qui évite la perte des mises en forme il faudra probablement attendre que les logiciels implémentent la version 7 de la spécification GEDCOM qui permet un codage plus universel en HTML. (et que cela soit implémenté par les logiciels, dont Généatique)

Cordialement
Thierry
 
Dernière édition:
Bonjour,

En résumé : Il n'existe pas de méthode avec les logiciels du commerce actuels.

Plus précisément :
A ma connaissance pas de problème de Géneatique à Généatique (sauf UTF-8 comme dit dans le précédent post).
Vers d'autres logiciels, qui supportent le RTF, il n'y a pas de méthode à coup sûr. (le RTF n'étant jamais implémenté complément).
Pour les logiciels qui ne supportent par le RTF, dans le meilleur des cas ils filtrent le codage RTF. Par exemple avec Geneanet les mises en formes et polices sont perdues.

La spécification GEDCOM ne définit en version 5.x que le codage texte brut. Le reste est une extension à la spécification et donc ce n'est pas universel. Pour avoir une restitution qui évite la perte des mises en forme il faudra probablement attendre que les logiciels implémentent la version 7 de la spécification GEDCOM qui permet un codage plus universel en HTML. (et que cela soit implémenté par les logiciels, dont Généatique)

Cordialement
Thierry
Merci de votre réponse très experte concernant l'export GEDCOM qui restera donc un peu incertain.
Dans le cadre de l'utilisation simple en restant dans Généatique,: impression de documents comprenant des notes saisies et imprimées sous Généatique, y a-t-il un inconvénient à ce que la saisie de ces notes soit en polices totalement bigarrée du fait des copiés-collés, ou faut il faire transiter ces copiés collés par un fichier txt pour un meilleur résultat? Merci de votre avis.
 
impression de documents comprenant des notes saisies et imprimées sous Généatique, y a-t-il un inconvénient à ce que la saisie de ces notes soit en polices totalement bigarrée du fait des copiés-collés, ou faut il faire transiter ces copiés collés par un fichier txt pour un meilleur résultat? Merci de votre avis.
Bonjour,
D'une manière générale il est toujours mieux d'importer un texte brut et d'y appliquer une mise en forme que de subir une mise à jour inadéquate. Néanmoins, hormis l'aspect esthétique, intra-Geneatique je ne vois pas d'inconvénient.
Le seul point négatif c'est que cela augmente inutilement la taille des données. Mais il y a peut être d'autres inconvénients que je ne vois pas.

Je laisse Pascal (Predigny) éventuellement compléter.

Cordialement
Thierry
 
Bonjour,
D'une manière générale il est toujours mieux d'importer un texte brut et d'y appliquer une mise en forme que de subir une mise à jour inadéquate. Néanmoins, hormis l'aspect esthétique, intra-Geneatique je ne vois pas d'inconvénient.
Le seul point négatif c'est que cela augmente inutilement la taille des données. Mais il y a peut être d'autres inconvénients que je ne vois pas.

Je laisse Pascal (Predigny) éventuellement compléter.

Cordialement
Thierry
Un grand merci de votre conseil de passer par txt, que je mettrai plus systématiquement en pratique.
Bonne journée
 
Avec G2024 V1.02, petite amélioration :
si on sélectionne un export HTML des notes, une grande partie des caractères (présents seulement dans le jeu UTF-8) dans les notes sont conservés par un import/export (du fait du codage HTML des caractères sous la forme &#num_unicode; )

Autrement, pas de changement avec un export UTF-8 en texte brut (TXT), il y a perte de caractères. Cela ne permet toujours pas l'export des dits caractères dans le fichier Gedcom. (Que l'on soit en "format gedcom 7" ou format gedcom 5.5.1)

Cordialement
Thierry
 
Dernière édition:

gratuit

Retour
Haut