|
Berechnung von Schlüsselwörtern |
Top Previous Next |
|
Die "Schlüsselwörter" werden berechnet, indem die Frequenz jedes Worts in der Wortliste des betreffenden Texts mit der Frequenz desselben Worts in der Referenzwortliste verglichen wird. Es werden alle Wörter einbezogen, die in der kleineren Liste auftreten, es sei denn, sie befinden sich in einer Stoppliste.
Wenn z. B. das Wort der zu 5% in kleinen Wortlisten und zu 6% in dem Referenzkorpus auftritt, wird es nicht zu den Schlüsselwörtern gezählt, obwohl es sehr wahrscheinlich das häufigste Wort ist. Wenn der Text von der Anatomie der Spinne handelt, so ist es sehr wohl möglich, dass die Namen der Forscher und Wörter wie Spinne, Bein, acht, usw. häufiger auftreten als im Referenzkorpus. (Es sei denn, im Referenzkorpus werden nur Spinnen behandelt!)
Um die "Gewichtung" eines Worts zu berechnen, muss das Programm folgende Parameter bestimmen: seine Frequenz in der kleinen Wortliste die gesamte Wortanzahl in der kleinen Wortliste seine Frequenz im Referenzkorpus die gesamte Wortanzahl im Referenzkorpus und diese miteinander verknüpfen.
Statistische Verfahren: der klassische Chi-Quadrat-Test mit Yates-Korrektur für eine Vierfeldertafel Ted Dunnings Log-Likelihood-Test, der bessere Schätzwerte für die Gewichtung liefert, speziell wenn man lange Texte oder eine Sammlung von Texten der gleichen Textsorte mit dem Referenzkorpus vergleicht.
In diese Liste gelangen Wörter, wenn sie im Vergleich mit der großen Wortliste ungewöhnlich häufig (oder ungewöhnlich selten) auftreten.
Ungewöhnlich seltene Schlüsselwörter heißen "negative Schlüsselwörter", und erscheinen in einer anderen Farbe am Ende der Liste. Beachten Sie, dass negative Schlüsselwörter automatisch aus einer KeyWords-Datenbank und einem Plot entfernt werden. |