|
Technische Aspekte in Viewer |
Top Previous Next |
|
Wann wird ein Satz nicht als Satz erkannt? Es gibt keine perfekte mechanische Methode, Satzgrenzen zu bestimmen. Zum Beispiel, eine Überschrift endet oft nicht mit einem Punkt, wird aber normalerweise nicht als Teil des darauffolgenden Satzes betrachtet. Auch ein Satz endet oft nicht mit einem Punkt, wenn danach eine Liste von Elementen folgt. Der von Viewer verwendete Algorithmus ist: Ein Satz endet bei einem Punkt, Frage- oder Ausrufezeichen (.?!) direkt gefolgt von einem oder mehreren Worttrennzeichen und danach einem Großbuchstaben (A-Z; auch Akzentbuchstaben), einer Ziffer oder einem Währungszeichen. Dasselbe Verfahren wird auch in WordList angewandt, obwohl WordList versucht, zwischen Sätzen und Überschriften zu unterscheiden, wodurch sich oft eine unterschiedlich hohe Anzahl der Sätze in den beiden Tools ergibt. Hier ein Beispiel aus A Tale of Two Cities: "Wo-ho!" said the coachman. "So, then! One more pull and you're at the top and be damned to you, for I have had trouble enough to get you to it! - Joe!" Viewer betrachtet fälschlicherweise - Joe! als eigenen Satz, jedoch "Wo-ho!" said the coachman. nicht als zwei getrennte Sätze: Das Programm würde zwei Sätze erkennen, wenn das Wort nach ho! mit einem Großbuchstaben beginnen würde (z. B. in Wild Bill, the coachman, said.). Viewer erkennt aus diesem Grund manchmal Satzgrenzen, die nicht mit den von Ihnen identifizierten Satzgrenzen übereinstimmen. (I saw Mr. Smith. wird als zwei Sätze erkannt; zahlreiche Überschriften sind zu einem Satz zusammengefügt.) Aus diesem Grund können Sie mit der Funktion Kurze Sätze suchen nach eigenartigen Ein-Wort-Sätzen suchen. Wie lang ist ein Satz? Der Speicherplatz für jeden Satz oder Absatz liegt bei 10.000 Zeichen. Viewer kann bis zu 16.368 Sätze oder Absätze anzeigen. (Wenn der Durchschnitt bei 10 Wörtern pro Satz liegt, sind das insgesamt 160.000 Wörter.) Kodierung: Datenträger, Akzentzeichen, etc. Um beste Ergebnisse zu erzielen, verwenden Sie ASCII- oder ANSI-Versionen Ihrer beiden Texte. Zum Speichern des durch Alignment synchronisierten Texts wird ein Windows-Zeichensatz verwendet. Siehe auch: Viewer: Inhalt |