|
Mot unique/clusters dans WordList |
Retour Précédent Suivant |
|
Clusters de WordList Une liste de mots ne se compose pas nécessairement de mots uniques. Vous pouvez créer des listes de mots contenant de 2 à 8 mots par ligne. Pour traiter les clusters dans WordList, il faut d'abord créer un index.
Procédure pour les clusters Ouvrez l'index. Cliquez sur Calculer | Clusters.
Mots à partir desquels former des clusters
Pour sélectionner des mots qui ne se trouvent pas les uns à côté des autres, appuyez sur Ctrl et cliquez sur le nombre à gauche, maintenez la touche Ctrl enfoncée et cliquez ailleurs. Le premier sélectionné apparaîtra en vert et les autres en blanc. Dans l'exemple qui suit, qui est basé sur un index du BNC World corpus, les mots world puis life ont été sélectionnés en cliquant sur les lignes 164 et 167.
Ce processus prend du temps. Dans le cas de BNC World, l'index connaît la position de l'intégralité des 100 millions de mots. Dans l'exemple ci-dessus, il a fallu une minute pour calculer les clusters de 3 mots pour les 115 000 apparitions de world et life et déterminer 5 719 clusters comme the world bank et of real life. Il a fallu 36 heures à l'ordinateur de Chris Tribble pour calculer tous les clusters de 3 mots pour l'ensemble du BNC. Il a pu utiliser son PC pendant ce temps, mais ce n'est pas très pratique.
Ce que vous voyez La taille d'un cluster doit se situer entre 2 et 8 mots. La "fréquence min." est le nombre minimum pour chacun d'entre eux. Ici, l'utilisateur a choisi d'afficher tous les clusters de 3 mots qui apparaissent au moins 5 fois.
Contraintes de fonctionnement Le paramètre "% fréquence max." permet d'accélérer le processus. Il s'agit de la fréquence maximum en % traitée lors du calcul des clusters pour un mot donné. Cela s'explique par le fait qu'il y a de nombreux éléments qui ont une fréquence très élevée et que les clusters qui commencent par ces éléments ne sont pas toujours ceux qui vous intéressent. Par exemple, si l'élément the représente 6 % dans une liste de mots, les clusters commençant par the ne vous intéresseront pas forcément, vous pouvez alors fixer le pourcentage maximum à 0,5 % ou 0,1 % (cela ôte 102 mots de fréquence pour le BNC World corpus). Les clusters contenant des éléments à très haute fréquence au milieu ou à la fin, comme a dans book a table seront pris en coosidération, mais pas in my book, qui commence par le mot à haute fréquence in. Plus vous incluez de mots, plus le processus sera long.
Arrêter à, comme les clusters Concord, présente des contraintes, telles que les marqueurs de fin de phrase et autres ponctuations. En effet, un cluster de 5 mots qui se trouve à cheval sur deux phrases n'est pas très pertinent.
Ce que vous obtenez
Voici quelques clusters de 3 mots issus du BNC World corpus comportant le mot "rabies". Certains d'entre eux sont des unités multi-mots pertinentes. Tous les clusters apparaissant au moins 5 fois sont affichés : pour régler ce paramètre, cliquez sur Modifier les paramètres | Index dans le contrôleur et spécifiez une valeur dans "afficher si la fréquence...", comme dans l'exemple ci-dessous :
Rubriques connexes : clusters dans Concord |