présentation générale

Jeux de caractères

Retour Précédent Suivant

Vous avez besoin de "texte brut" pour utiliser WordSmith. Les fichiers Microsoft Word *.doc ne sont pas pris en charge car ils contiennent du texte mais également de nombreuses informations qui ne sont pas visibles pour l'utilisateur.

Pour traiter un texte avec un ordinateur, l'encodage du texte doit pouvoir être détecté par les programmes. Lors du traitement, le logiciel ne voit qu'une longue chaîne de nombres, et ces derniers doivent correspondre à ce que l'être humain reconnaît comme "caractères". Pour de nombreuses langues comme l'anglais dont l'alphabet est restreint, l'encodage peut être géré en n'utilisant qu'un seul octet par caractère. En revanche, pour une langue telle que le chinois, qui utilise une large gamme de caractères, un système à un seul octet ne suffit pas. C'est la raison pour laquelle les systèmes à plusieurs octets ont été créés. Il est évident que si un texte anglais est encodé dans un jeu de caractères à plusieurs octets, cela créera un fichier plus lourd que s'il était encodé à un seul octet par caractère, et cela utilise inutilement de l'espace disque. C'est pourquoi à l'heure actuelle, les jeux de caractères à un octet sont toujours largement répandus.

En pratique, vos textes seront encodés dans un système Windows à un seul octet, les textes plus anciens dans un système DOS à un octet, et les plus récents, surtout ceux en chinois, japonais et grec, seront encodés en Unicode. Ce qui importe pour l'utilisateur, c'est l'apparence de chaque caractère. Cependant, WordSmith ne peut pas trier les caractères correctement, ou même reconnaître le début ou la fin d'un mot si l'encodage n'est pas correct. WordSmith doit savoir (ou pouvoir détecter) quel est le système d'encodage de vos fichiers. Il peut effectuer certaines tâches en arrière-plan. Mais comme le logiciel ne "comprend" pas les mots qu'il rencontre, il est préférable de définir le jeu de caractères à l'avance, surtout si vous traitez des textes rédigés en allemand, espagnol, russe, grec, polonais, japonais, farsi, arabe, etc.

Les trois jeux de caractères principaux, chacun ayant des caractéristiques propres, sont Windows, DOS, et Unicode.

Astuce

Pour vérifier les résultats après modification du code, cliquez sur Sélectionner des textes puis affichez le fichier. Lors de l'affichage, vous pouvez modifier les caractéristiques du texte jusqu'à ce l'apparence convienne. Si vous ne parvenez pas à obtenir un affichage correct, c'est que votre texte n'est pas un fichier texte brut mais qu'il provient directement d'un traitement de texte. Dans ce cas, ouvrez à nouveau votre fichier dans un logiciel de traitement de texte puis enregistrez-le en texte brut au format Windows (lequel est plus récent que les formats DOS).

Rubriques connexes : Sélectionner des accents et des symboles, Caractères accentués; Sélectionner une langue