|
Nur Teil der Datei: innerhalb von Texten auswählen |
Top Previous Next |
|
Anfang jeder Zeile/jedes Absatzes entfernen In einigen Korpora (z. B. LOB) wird jede Zeile am Anfang mit einer fixen Anzahl von Kodierungen markiert, die Informationen bezüglich der Zeile enthalten. Mit dieser Funktion möchten Sie diese Kodierungen entfernen (also nach jeder Zeilenschaltung). Wählen Sie die Anzahl der Zeichen aus, die entfernt werden sollen (max. = 100; Standard = 0) Verwenden Sie -1,wenn Sie alles bis zum ersten alphabetischen Buchstaben am Anfang jeder Zeile entfernen möchten, und -2 um alles bis zum ersten Tabstopp zu entfernen.
Abschnitte ausschneiden Wenn Sie Textdateien mit Headern in SGML, XML oder HTML verwenden (z. B. der British National Corpus), können Sie die Header einfach aus Ihren Wortlisten, Konkordanzen, etc. ausschneiden, wie im Beispiel Dokument-Header beschrieben wird.
Für eine komplexere Auswahl können Sie hier festlegen, was ausgeschnitten werden soll, und zwar von welcher Stelle (z. B. <HEAD>) bis zu welcher Stelle (z. B. </HEAD>). Sie können bis zu drei verschiedene, getrennte Abschnitte zum Ausschneiden auswählen (<HEAD> bis </HEAD> oder <BODY> bis </BODY>). Mit dieser Funktion schneiden Sie alle Abschnitte mit diesen Markierungen innerhalb des gesamten Texts aus.
Abschnitte beibehalten (Kontexte) Sie möchten einen Abschnitt eines Texts auswählen und den Rest entfernen. Geben Sie ein Tag an, das den gewünschten Beginn des Abschnitts markiert, und ein Tag, mit dem das Ende des Abschnitts markiert wird, z. B. <Intro> bis <Body> (hiermit werden nur die Einleitungen der Texte analysiert), oder Mary: bis Peter: (hiermit werden alle Beiträge von Mary analysiert und der Rest ignoriert).
Natürlich müssen Sie sich vergewissern, dass die Abschnitte mit im Text einzigartigen Symbolen definiert sind, wie z. B. < oder > . Zum Beispiel im Falle Mary: und Peter: müssen Sie sicherstellen, dass bei jedem Beitrag von Mary direkt nach ihrem Namen ein Doppelpunkt steht, und dass alle Beiträge von Mary direkt vor Peter: enden. Bei dieser Funktion werden Groß- und Kleinschreibung beachtet (MARY: würde also nicht gefunden werden. Wenn Sie in dieser Funktion <H1> bis </H1> angeben, werden Sie in einem HTML-Text alle Hauptüberschriften erhalten (egal wie viele), aber ansonsten nichts.
Sie können zwei verschiedene Abschnitte beibehalten, z. B. <Intro> bis </Intro> für die Einleitung und <Conclusion> bis </Conclusion> für den Schlussteil. Die Endmarkierung muss nicht denselben Text wie die Anfangsmarkierung beinhalten -- Sie können z. B. <INTRO> bis </BODY> beibehalten, und dadurch den Schlussteil ausschneiden, falls dieser nach </BODY> kommt.
Siehe auch: Tags als Selektoren, Texte nach Inhalt filtern.
|