|
Type-Token-Relationen und die Standardisierte Type-Token-Relation
|
Top Previous Next |
|
Wenn ein Text aus 1.000 Wörtern besteht, spricht man von 1.000 "Token". Viele dieser Wörter kommen jedoch öfter vor, also enthält der Text vielleicht nur 400 unterschiedliche Wörter. Diese unterschiedlichen Wörter werden "Types" genannt. Die Relation zwischen Types und Token wäre in diesem Beispiel 40%. Aber diese Type-Token-Relation (TTR) kann sehr unterschiedlich sein, abhängig von der Länge des Texts (oder der Größe des Textkorpus), der untersucht wird. Ein Artikel mit 1.000 Wörtern hat eine TTR von 40%; ein kürzerer Artikel erreicht vielleicht 70%; ein Text mit 4 Millionen Wörtern ergibt wahrscheinlich eine Type-Token-Relation von etwa 2%, und so weiter. Diese Type-Token-Information ist in den meisten Fällen bedeutungslos, obwohl sie bei einer WordList-Statistik angezeigt wird. Die konventionelle TTR ist natürlich informativ, wenn Sie mit einem Korpus arbeiten, der aus vielen gleich großen Textsegmenten besteht (z. B. die Korpora LOB und Brown). Wenn Sie allerdings mit Texten arbeiten, die im Alltag auftauchen (speziell wenn Ihr Forschungsschwerpunkt auf dem Text im Gegensatz zur Sprache liegt), dann sind diese Text bezüglich ihrer Länge normalerweise sehr unterschiedlich, und dann ist eine konventionelle TTR nicht besonders hilfreich.
WordList nützt aus diesem Grund eine andere Methode zur Berechnung dieser Relation. Die standardisierte Type-Token-Relation (STTR) wird immer nach n Wörtern berechnet, während WordList die Dateien verarbeitet. Der Standard liegt bei n = 1.000. Die Relation wird also für die ersten 1.000 Wörter berechnet, dann erneut für die darauffolgenden 1.000 Wörter, und so weiter, bis das Ende des Textkorpus erreicht ist. Ein laufender Durchschnitt wird berechnet, was bedeutet, dass Sie eine durchschnittliche Type-Token-Relation auf Basis von aufeinanderfolgenden Textchunks zu jeweils 1.000 Wörter erhalten. (Texte mit weniger als 1.000 Wörtern (bzw. dem für n festgelegten Wert) werden eine standardisierte Type-Token-Relation von 0 ergeben.)
N-Wert festlegen Legen Sie den Wert für n in den Einstellungen für Minimum und Maximum auf eine beliebige Zahl zwischen 100 und 20.000 fest.
Was wird bei der STTR tatsächlich gezählt? Anmerkung: Bei der Berechnung der Relation werden a) alle unterschiedlichen Formen als ein Wort gezählt (also sagen und sage sind zwei Types); b) nur die Wörter verwendet, die nicht in der Stoppliste sind; c) nur die Wörter verwendet, die innerhalb der von Ihnen festgelegten Wortlänge liegen; d) Ihre Einstellungen bezüglich Zahlen und Bindestrichen berücksichtigt. Die angezeigte Zahl ist ein Prozentwert der neuen Types pro n Token. Auf diese Weise können Sie Type-Token-Relationen bei Texten mit unterschiedlicher Textlänge vergleichen. Diese Methode steht der Methode von Tuldava (1995:131-50) gegenüber, der sich auf einen Wert aus einer dreistufiger Akkumulierung verlässt. Die Methode, mit der WordSmith die STTR berechnet, wurde von mir selbst entwickelt, ist jedoch ähnlich einer Methode, die von dem Mathematiker David Malvern in Zusammenarbeit mit Brian Richards (University of Reading) entwickelt wurde.
Weitere Erklärung TTR und STTR sind jeweils ziemlich grobe Messungen, obwohl oft angenommen wird, dass dadurch "lexikalische Dichte" ausgedrückt werden kann. Angenommen Sie haben einen Text, der 1.000 Wörter lang von ELEFANT, LÖWE, TIGER, etc. handelt; die nächsten 1.000 Wörter von MADONNA, ELVIS, etc. und wiederum die nächsten 1.000 Wörter von WOLKE, REGEN, SONNENSCHEIN. Wenn der n-Wert bei STTR auf 1.000 festgelegt wird, und Sie einen STTR-Wert von 48% erhalten, enthält die Statistik keine Informationen darüber, dass im Text Veränderungen von Afrika zu Musik und schließlich zum Wetter stattgefunden haben. Liegt die Textgrenze (n-Wert) zwischen Afrika und Musik bei 650 Wörtern statt 1.000, schlägt sich dieser Unterschied nicht in der Statistik nieder. Wodurch würde dann ein Unterschied entstehen? In einem Text, der von Wolken handelt und von einer Person geschrieben wurde, die zwischen verschiedenen Wolkenarten unterscheidet, würde auch Wörter vorkommen wie NEBEL, DUNST, KUMULUS, KUMULONIMBUS. Der STTR-Wert wäre also höher als bei einem Text von einem Kind, das häufig das Wort WOLKE verwendet, und dieses mit Adjektiven wie HOCH, NIEDRIG, SCHWER, DUNKEL, DÜNN, SEHR DÜNN beschreiben würde... und dazu die Adjektive DUNKEL, DÜNN, etc. häufig wiederholt...
(Anm.: Shakespeare ist dafür bekannt, dass er, wenn man von diesen Messungen ausgeht, einen ziemlich begrenzten Wortschatz verwendet hat!)
|