|
Einzelne Wörter vs. Cluster in WordList |
Top Previous Next |
|
WordList-Cluster Eine Wortliste muss nicht nur aus einzelnen Wörtern bestehen. Sie können eine Wortliste erstellen mit Einträgen von zwei, drei, bis maximal acht Wörtern pro Zeile. Um in WordList die Cluster-Verarbeitung auszuführen, müssen Sie zuerst einen Index erstellen.
Wie kann ich Cluster sehen? Öffnen Sie den Index. Wählen Sie jetzt Berechnen | Cluster.
Wörter, mit denen man Cluster bilden kann
Um Wörter auszuwählen, die nicht nebeneinander stehen, drücken Sie Strg und klicken Sie die Nummer links an -- halten Sie Strg gedrückt und drücken Sie dann auf eine andere Nummer. Die erste angeklickte Nummer wird dann grün angezeigt und die anderen weiß. In dem Bild unten, basierend auf einem Index des BNC World Corpus, wurden die Wörter world und dann life durch Anklicken der Nummern 164 und 167 ausgewählt.
Dieser Vorgang nimmt Zeit in Anspruch. Im Fall des BNC World sind im Index die Positionen aller 100 Millionen Wörter gespeichert. Wenn man wie im oberen Beispiel nach 3-Wort-Clustern sucht, dauert es eine Minute, um alle 115.000 Fälle mit world und life zu verarbeiten und die 5.719 Cluster wie z. B. the world bank und of real life zu identifizieren. Chris Tribble berichtet, dass es mit seinem PC 36 Stunden dauerte, alle 3-Wort-Cluster des gesamten BNC zu berechnen. Er konnte seinen PC in dieser Zeit zwar anderweitig nutzen, dennoch möchte man so eine Berechnung nicht öfters durchführen.
Anzeige Die "Clustergröße" muss zwischen zwei und acht Wörtern liegen. Die "Mindestfrequenz" gibt an, wie häufig dieser Cluster mindestens vorkommen muss. Hier hat der Benutzer 3-Wort-Cluster ausgewählt, die fünf Mal oder öfter vorkommen.
Einschränkungen Die Einstellung "max. Frequenz %" beschleunigt den Vorgang. Dieser Wert steht für den maximalen Frequenzprozentwert, der bei der Berechnung von Clustern für ein gegebenes Wort noch berücksichtigt wird. Es gibt sehr viele Elemente, die äußert häufig vorkommen, und Sie sind wahrscheinlich nicht an Clustern interessiert, die mit diesen Elementen beginnen. Zum Beispiel macht das Element the etwa 6% aller englischen Wortlisten aus, und Sie möchten sicherlich keine Cluster berechnen, die mit the... beginnen -- falls doch, können Sie den max. Prozentwert auf 0,5% oder 0,1% festlegen (wodurch im BNC World Corpus die 102 häufigsten Wörter ignoriert werden). Sie werden dennoch Cluster erhalten, die sehr häufige Elemente in der Mitte oder am Ende beinhalten, wie etwa a in der Phrase book a table, nicht jedoch in my book, das mit dem sehr häufigen Wort in beginnt. Je mehr Wörter Sie in der Berechnung mit einschließen, umso länger dauert dieser Vorgang.
Anhalten bei bietet, gleich wie Concord: Cluster, eine Anzahl von Einschränkungen, wie z. B. Satzende bzw. andere Umbrüche, die durch Interpunktion markiert sind. Diese Einschränkungen dienen dazu Cluster auszuschließen, die über ein Satzende hinausgehen, da diese sehr wahrscheinlich keinen Sinn ergeben.
Wie sehen Cluster aus?
Hier sehen Sie eine kleine Gruppe von 3-Wort-Clustern mit dem englischen Wort "rabies" (dt. 'Tollwut') aus dem BNC World Corpus. Einige davon sind sinnvolle Einheiten bestehend aus mehreren Wörtern. Alle Cluster werden angezeigt, die zumindest fünf Mal vorkommen: um diese Einstellung zu ändern, wählen Sie Einstellungen anpassen | Index im Controller und legen den Wert für "anzeigen ab Mindestfrequenz" wie folgt fest:
Siehe auch: Cluster in Concord |