|
Aspects techniques de Viewer |
Retour Précédent Suivant |
|
Quand est-ce qu'une phrase n'est pas une phrase ? Il n'existe aucun moyen mécanique parfait permettant de délimiter les fins de phrases. Un en-tête peut par exemple ne comporter aucun point final, mais il n'est pas considéré comme partie intégrante de la phrase qui lui fait suite. Il est fréquent qu'une phrase ne comporte pas de point final, dans le cas d'une liste d'éléments par exemple. L'algorithme utilisé par Viewer est le suivant : une phrase se termine si un point final, un point d'interrogation ou d'exclamation est immédiatement suivi d'un ou plusieurs séparateurs de mots et si le symbole suivant (à l'exception des signes de ponctuation) est une lettre majuscule, une majuscule accentuée, un nombre ou un symbole monétaire. WordList, utilise la même routine, à la différence qu'il essaye de faire la distinction entre les phrases et les en-têtes. Ainsi le nombre de phrases dans les deux outils a peu de chance d'être identique. Prenons l'exemple de cet extrait de A Tale of Two Cities : "Wo-ho!" said the coachman. "So, then! One more pull and you're at the top and be damned to you, for I have had trouble enough to get you to it! - Joe!" Viewer considère (à tort) que - Joe! est une phrase indépendante, mais traite "Wo-ho!" said the coachman. comme une seule phrase. Cependant, le programme séparerait la phrase en deux si le mot qui suit ho! comportait une lettre majuscule (par exemple Wild Bill, the coachman, said.). Ainsi, vous constatez que Viewer ne peut pas gérer les phrases comme vous le feriez. (La phrase I saw Mr. Smith. serait considérée comme deux phrases séparées. En revanche, plusieurs en-têtes peuvent être groupés et considérés comme une seule phrase. C'est pourquoi vous pouvez choisir de rechercher des phrases courtes afin de repérer les phrases ne comportant qu'un seul mot. Quelle est la longueur d'une phrase ? L'espace de stockage pour chaque phrase ou paragraphe est de 10 000 caractères. Viewer peut afficher jusqu'à 16 368 phrases ou paragraphes. Si on estime que chaque phrase comporte en moyenne 10 mots, cela représente un total de 160 000 mots. Gestion du disque, accents, etc. Pour obtenir de meilleurs résultats, il est préférable d'utiliser des versions ascii ou ansi de vos deux textes. Le texte joint est enregistré en utilisant un jeu de caractères Windows. Rubriques connexes : Sommaire de Viewer |