|
Transinformation ( |
Top Previous Next |
|
Wozu dient das? Bei der Transinformation (MI; steht für engl. "Mutual Information") wird die Beziehung zwischen zwei Wörtern berechnet. Zum Beispiel wenn das Wort Problem oft in Verbindung mit dem Wort lösen vorkommt, haben diese Wörter möglicherweise einen hohen Transinformationswert. Normalerweise scheint das Wort das sehr viel häufiger in der Nähe von Problem auf als lösen. Deshalb wird bei der Berechnung des Transinformationswerts nicht nur die Häufigkeit berücksichtigt, mit der ein Wort in der Nähe eines anderen auftritt, sondern auch wie häufig dieses Wort generell vorkommt. Da das sehr häufig unabhängig von Problem vorkommt, werden diese zwei Wörter nicht in Verbindung zueinander gesetzt und ihr MI-Wert ist niedrig.
Diese Beziehung ist bilateral: Im Fall von den englischen Wörtern kith und kin, wird nicht unterschieden zwischen der Tatsache, dass kith fast immer gemeinsam mit kin vorkommt, umgekehrt kin jedoch nicht nur mit gemeinsam mit dem Wort kith auftritt.
Es gibt viele verschiedene Formeln um zu berechnen, wie eng zwei Wörter einer Kollokation miteinander in Beziehung stehen. Der MI in WordSmith ("spezifische Transinformation") wird mit einer Formel berechnet, die von Gaussier, Lange und Meunier entwickelt wurde und in Oakes, S. 174 beschrieben ist; hier basiert die Wahrscheinlichkeit auf der Gesamtanzahl der Token des Korpus. Andere Messungen dieser Beziehung werden auch berechnet; für weitere Informationen siehe Transinformation: Anzeige.
Einstellungen Die Einstellungen für Transinformation finden Sie im Controller unter Einstellungen anpassen | Index oder in einer Menüoption in WordList.
anhalten bei: Sie können den Kollokationsbereich selbst festlegen. Mit den Einstellungen in diesem Screenshot, würde in "Ich schrieb den Brief. Kannst Du ihn abschicken?" das Wort abschicken nicht als möglicher Kollokator von Brief gelten, weil zwischen diesen Wörtern ein Satzende ist. max. Prozent jeden Token ignorieren, dessen Frequenz höher ist als der angegebene Prozentsatz. (Dadurch wird vermieden, dass die Transinformation für Wörter wie der, von, etc. berechnet wird, deren Frequenz wahrscheinlich über 1,0% liegt.) Bereich: die Anzahl der Wörter zwischen Kollokator und Basis. Mit einem Bereich von 5, gelten für das Basiswort schrieb die Wörter Ich, den, Brief, Kannst, Du und ihn als mögliche Kollokatoren, wenn unter anhalten bei festgelegt ist keine Grenzen. min. Transinformation: der Mindestwert des MI, ab dem das Ergebnis angezeigt wird. Ein sinnvoller Wert liegt bei 3,0. Bei einem Wert darunter ist es wahrscheinlich, dass die Beziehung zwischen Basis und Kollokator eher schwach ist. Mindestfrequenz: die Mindestfrequenz für Elemente, deren Transinformation berechnet werden soll (Standard = 5). (Kommt ein Element nur ein- oder zweimal vor, ist die Transinformation wahrscheinlich nicht informativ.)
Siehe auch: Transinformation: Anzeige, Transinformation berechnen, Indexliste erstellen, Indexlisten anzeigen, Inhalt der WordList-Hilfe.
Siehe Oakes für weitere Informationen zu Transinformation.
|