ratios type/token

Ratios type/token and ratio type/token standardisé

Retour Précédent Suivant

Si un texte comporte 1 000 mots, on dit qu'il comporte 1 000 "tokens". Cependant, bon nombre de ces mots vont se répéter, et il n'y aura peut-être que 400 mots différents dans le texte. Ainsi, les "types" représentent les différents mots.

Ici, le ratio entre les types et les tokens serait de 40 %.

Mais ce ratio type/token (également appelé TTR) varie énormément en fonction de la longueur du texte (ou du corpus de texte) étudié. Un article de 1 000 mots peut avoir un TTR de 40 %, un texte plus court avoir un ratio de 70 % et un texte de 4 millions de mots, quant à lui, peut avoir un ratio de 2 % et ainsi de suite. Dans la plupart des cas, ces informations n'ont pas vraiment de sens, même si elles sont affichées dans les statistiques de WordList. Le TTR conventionnel donne bien sûr quelques informations si vous traitez un corpus comprenant de nombreux segments de texte de taille égale (par exemple les corpus LOB et Brown). Mais en réalité, et surtout si vos recherches s'orientent sur le texte par opposition à la langue, vous serez amené à traiter des textes de longueurs différentes, et le TTR conventionnel ne vous sera pas d'une grande aide.

Cependant, WordList calcule cela de manière différente. Le ratio type/token standardisé (également appelé STTR) est calculé tous les n mots à mesure que WordList parcourt chaque fichier texte. Par défaut, n = 1 000. Cela signifie que le ratio est calculé pour les 1 000 premiers mots, puis recalculé pour les 1 000 suivants, et ainsi de suite jusqu'à la fin de votre texte ou corpus. Une moyenne est calculée, ce qui signifie que vous obtenez un ratio type/token basé sur des blocs consécutifs de texte de 1 000 mots. Les textes comprenant moins de 1 000 mots (ou les textes comprenant un nombre de mots inférieur au nombre n défini) obtiennent un ratio standardisé de 0.

Définition de la limite N

Vous pouvez modifier le nombre n dans la section Paramètres minimum et maximum et lui affecter une valeur comprise en 100 et 20 000.

Ce que calcule le STTR

Remarque : Le ratio est calculé a) en comptant chaque forme différente comme un mot (ainsi manger et manges sont considérés comme deux types différents) b) en utilisant les mots qui ne sont pas dans une liste d'arrêt c) en prenant en compte ceux dont la longueur est comprise dans les valeurs que vous avez spécifiées, d) en tenant compte de vos préférences en matière de nombres et traits d'union.

Le nombre affiché est un pourcentage des nouveaux types par tranche de n tokens. Ainsi, vous pouvez comparer les ratios type/token de textes de différentes longueurs. Cette méthode s'oppose à celle de Tuldava (1995:131-50) qui se base sur la notion de 3 stades d'accumulation. La méthode de WordSmith pour calculer le STTR est de ma propre invention, mais elle est parallèle à l'une des méthodes mise au point par le mathématicien David Malvern travaillant avec Brian Richards (Université de Reading).

Pour aller plus loin

TTR et STTR sont des mesures relativement grossières même si la plupart des gens supposent qu'elles donnent des informations sur la "densité lexicale". Supposons que vous disposiez d'un texte comprenant 1 000 mots consacrés à une discussion sur ÉLÉPHANT, LION, TIGRE etc., puis 1 000 sur MADONNA, ELVIS etc., puis 1 000 sur NUAGE, PLUIE, SOLEIL. Si vous définissez la limite STTR à 1 000 et que vous obtenez 48 % pour chaque section, les statistiques ne vous diront pas qu'il s'agissait de l'Afrique, de la musique et du temps. Supposons que la limite entre Afrique et Musique se situe au mot 650 au lieu du mot 1 000, il y a fort à parier qu'il n'y aura que très peu de différences dans les statistiques. Mais qu'est-ce qui entraînerait vraiment une différence ? Un texte traitant des nuages et écrit par une personne faisant une grande distinction entre les différents types de nuages peut également utiliser BROUILLARD, BRUME, CUMULUS, CUMULO-NIMBUS. Le STTR serait plus élevé que pour un texte écrit par un enfant employant principalement le mot NUAGE et des adjectifs tels que HAUT, BAS, ÉPAIS, FONCÉ, FIN, TRÈS FIN et ferait une utilisation abondante des adjectifs FONCÉ, MIN pour décrire les nuages.

Remarque : Shakespeare était connu pour n'employer qu'un vocabulaire relativement limité en termes de mesures telles que celles-ci.