mots uniques/clusters

Mot uniques/clusters

Retour Précédent Suivant

Le but

Les clusters sont des mots qui apparaissent souvent ensemble l'un à côté de l'autre. Les clusters sont plus étroitement liés que les co-occurents, comme les unités multi-mots, les groupes ou les syntagmes. On les appelle clusters car les groupes et les syntagmes ont déjà leur utilisation en grammaire et le fait que le logiciel les trouve ensemble ne signifie pas forcément que ce soient de véritables unités multi-mots. Biber les appelle des "ensembles lexicaux".

Une langue est faite de mots et de locutions. Il ne faut pas la voir comme une sélection de mots destinée à remplir un espace grammatical, comme l'indiquent les théories structurelles. Les mots sont liés : les exemples les plus flagrants sont les locutions, dans lesquelles les mots sont intrinsèquement liés les uns aux autres, cependant, tous les mots ont tendance a former des clusters entre eux. Ces relations de clusters peuvent inclure des colligations (par exemple les relations entre compter et sur), des collocations, et de la prosodie sémantique (provoquer a tendance à être lié à des effets négatifs comme accident, problème, etc.).

Oxford WordSmith Tools offre deux possibilités pour identifier les clusters de mots : WordList et Concord. Les méthodes sont différentes. Concord ne traite que les lignes de concordance, alors que WordList traite des textes entiers.

Fonctionnement de Concord

Supposons que votre texte commence par :

Once upon a time, there was a beautiful princess (Il était une fois une ravissante princesse). She snored (Elle ronflait). But the prince didn't (Mais pas le prince).

Si vous avez sélectionné un cluster de 2 mots, le texte sera segmenté comme suit :

Once upon

upon a

a time

(remarque : pas "time there" n'apparaît pas, car il y a une virgule entre les deux mots)

there was (etc)

Si vous paramétrez des clusters de trois mots, vous obtiendrez :

Once upon a

upon a time

there was a

was a beautiful

a beautiful princess

But the prince

the prince didn't

etc.

C'est-à-dire que chaque cluster de n mots sera enregistré s'il a une longueur minimum de n mots jusqu'à un symbole de ponctuation comme ;,.!? Logiquement, un cluster ne se trouve pas à cheval sur deux phrases séparées par une marque de ponctuation.