|
Calcul des mots-clés |
Retour Précédent Suivant |
|
Les mots-clés sont calculés en comparant la fréquence de chaque mot de la liste de mots du texte qui vous intéresse avec la fréquence du même mot dans la liste de mots de référence. Tous les mots qui apparaissent dans la plus petite liste sont pris en compte, sauf s'ils se trouvent dans une liste d'arrêt.
Si le apparaît dans 5% des cas dans la petite liste et dans 6% des cas dans le corpus de référence, il ne sera pas un mot-clé, même si c'est le mot le plus fréquent. Si le texte traite de l'anatomie des araignées, il se peut que le les noms des chercheurs et les éléments araignée, patte, huit etc. soient plus fréquents qu'ils ne le sont dans le corpus de référence, à moins que votre corpus ne parle que d'araignées.
Pour calculer la pertinence d'un élément, le programme calcule donc sa fréquence dans la petite liste de mots le nombre de mots dans la petite liste de mots sa fréquence dans le corpus de référence le nombre de mots dans le corpus de référence Il met ensuite tous ces éléments en regard dans un tableau.
Les tests statistiques incluent : le classique test du chi-deux avec la correction de Yates pour un tableau 2 X 2 le test du log de vraisemblance de Ted Dunning donne une meilleure estimation de la pertinence, surtout lorsque vous comparez de longs textes ou l'intégralité d'un genre avec votre corpus de référence.
Un mot apparaîtra dans la liste s'il est significativement fréquent (ou peu fréquent) par rapport à ce à quoi vous vous attendez au vu de la grande liste de mots.
Les mots-clés significativement non fréquents sont appelés "mots-clés négatifs" et apparaissent en fin de liste dans une couleur différente. À noter que les mots-clés négatifs seront automatiquement ignorés par une base de données et un schéma. |