|
Informations mutuelles ( |
Retour Précédent Suivant |
|
le but Un score d'Information Mutuelle (IM) met en relation les mots les uns avec les autres. Si problème apparaît souvent avec résoudre, ils ont certainement des scores d'informations mutuelles élevés. Généralement, on trouve plus souvent le à proximité de problème que de résoudre, c'est pourquoi sont pris en considération lors du calcul des informations mutuelles non seulement les mots qui apparaissent le plus souvent près du mot en question, mais aussi les apparitions de chaque mot ailleurs que près du mot en question. Puisque le apparaît fréquemment loin de problème, il ne sera pas très lié et aura un faible score d'IM.
Cette relation est bilatérale : dans le cas de pile et face, aucune distinction n'est établie entre la certitude quasi-totale de trouver face près de pile, et la probabilité bien moins élevée de trouver pile près de face.
Il existe différentes formules permettant de calculer le degré des relations de co-occurrences. Les informations mutuelles dans WordSmith ("informations mutuelles spécifiques") sont calculées en utilisant une formule dérivée de Gaussier, Lange et Meunier, décrite dans Oakes, p. 174 ; la probabilité est basée sur la taille totale du corpus en tokens. D'autres aspects de relations collocationnelles sont également calculés, ils sont exposés dans la section Affichage des informations mutuelles.
Paramètres Les paramètres d'informations mutuelles sont accessibles à partir du contrôleur sous Modifier les paramètres | Indexage ou par le biais d'une option de menu dans WordList.
arrêter à : vous pouvez indiquer si vous souhaitez prendre en considération les marqueurs de fin ou non. Si c'est le cas, dans "J'ai écrit la lettre. Puis je l'ai postée", postée ne serait pas considéré comme un co-occurrent de lettre car ils sont séparés par un marqueur de fin de phrase. % max. ignore tous les tokens qui sont plus fréquents que le pourcentage indiqué. Le but est d'éviter de calculer les informations mutuelles pour des mots comme le et de, qui ont généralement une fréquence très élevée. étendue : le nombre de mots entre co-occurrent et noeud. Avec une étendue de 5, le noeud écrit considère la, lettre, puis, je et postée comme étant des co-occurrents potentiels si arrêter à est défini sur aucune limite. informations mutuelles min. valeur minimum que doit avoir le score d'IM pour être signalé. 3,0 est une bonne limite. En deçà, le lien entre noeud et co-occurrent est généralement faible. fréquence min. : fréquence minimum que doit avoir un élément pour être pris en considération lors du calcul des informations mutuelles (par défaut = 5). Si un élément n'apparaît qu'une ou deux fois, les informations mutuelles ne seront pas très significatives.
Rubriques connexes : Affichage des informations mutuelles, Calcul des informations mutuelles, Création d'une liste d'index, Affichage des listes d'index, Sommaire de l'aide de WordList.
Référez-vous aux ouvrages de Oakes pour de plus amples informations sur les informations mutuelles.
|