Unter Segmentierung versteht man die Zerlegung eines Textes in eine Sequenz von Segmenten. Die Art und Größe der Segmente kann je nach Zielsetzung sehr verschieden sein. In der Diskursanalyse werden sowohl grobe Segmentierungen, die vergleichbar sind mit der typographisches Dokumentstruktur (Abschnitte und Absätze), als auch sehr feine Segmentierungen, deren Segmente nur wenige Sätze umfassen, vorgenommen, siehe z.B. () Seite 5-8.
Im KoKS-System wird der Begriff Segment anders verstanden.
In der Regel sind hier Segmente identisch mit Sätzen.
Neben Satzgrenzen sind auch die während der Aufbereitung
(siehe Abschnitt
) eingefügten Absatzgrenzen
Segmentgrenzen, sodass auch Überschriften ein Segment bilden.
Segmente können aber im KoKS-System auch mehrere Sätze umfassen
oder leer sein.
Der Aligner (siehe Abschnitt
) verschmilzt
Segmente, um das Alignment zu
repräsentieren.
Nach dem Alignen besteht jedes Alignment-Bead
aus genau einem deutschen und einem englischen Segment.
In Abbildung
sieht man, wie vor dem Alignment jedes
Satzende mit einem Segmentende zusammenfällt.
Die Segmentendemarkierungen3.16nach dem Alignen zeigt Abbildung
.
Segmente spielen im KoKS-System und im Translation Memory dieser
Arbeit eine zentrale Rolle.
Die Suche im Korpus erfolgt grundsätzlich segmentweise.
Alle Indizes (siehe Abschnitt
) verweisen auf
Segment-Nummern.
Eine gute Erkennung der Satzgrenzen ist daher sehr wichtig.
Der IMS TreeTagger entscheidet bereits im Tokenisierungsmodul für
jeden Punkt, ob er ein Satzende kennzeichnet.
Ein Punkt wird nur als eigenständiges Token behandelt, wenn er als
Satzzeichen eingestuft wurde.
Der Tokenisierer verfügt über eine Abkürzungsliste und erkennt auch
Fälle wie z.B. ,,der 5. Punkt der Tagesordnung``.
Die Qualität der Klassifizierung der Punkte konnte im KoKS-Projekt mit einfachen Regeln noch weiter erhöht werden. Z.B. wird grundsätzlich ein Satzende angenommen, wenn nach einem Punkt ein Wort groß geschrieben wird, dessen Lemma klein geschrieben wird. (Das Lemma wird vom IMS Tagger annotiert.) Details finden sich im Anhang des KoKS-Abschlussberichts.
Bei ,,Water Rats`` in Anführungszeichen (siehe Tabelle
)
verschluckt der KoKS-Satzendenerkenner das Wort ,,Rats``.
Ist das Anführungszeichen nicht das letzte Zeichen der Eingabe, dann
verschwindet dieser Fehler.
Ein spezielles Problem für die Segmentierung stellt wörtliche Rede dar. Da die Grenzen im KoKS-System nach Satzzeichen gezogen werden, gehört das schließende Anführungszeichen zum nächsten Segment, das dann je nach Situation eine ungerade Anzahl von Anführungszeichen enthält, mit zwei Anführungszeichen beginnt und/oder dessen Passagen genau invers in wörtliche Rede und normalen Text eingeteilt sind.
Abbildung
zeigt einen kurzen Ausschnitt aus dem
Harry-Potter Korpus,
in dem einige dieser Probleme auftreten.
Eine einfache Lösung, die aus Zeitgründen nicht mehr umgesetzt wurde,
wäre, die Segmentendemarkierungen immer dann
hinter ein Anführungszeichen zu verschieben, wenn die Anzahl der
Anführungszeichen im aktuellen Segment ungerade ist.
Patrick Tschorn3.17 weist darauf hin,
dass dies Verfahren scheitert, wenn Anführungszeichen fehlen, z.B.
aufgrund von OCR-Fehlern.
Ein weiteres Problem der wörtliches Rede ist ihre Verzahnung
mit dem sie umgebenen Text.
Mit einer sequentiellen Segmentierung können solche Sätze nicht
getrennt werden.
Aber selbst diskontinuierliche Segmente reichen zur Lösung des
Problems nicht aus, da Satzzeichen
von beiden verzahnten Sätzen gemeinsam
genutzt werden können.
Regelmäßig geschieht dies mit satzbeendender Interpunktion,
wenn die Satzenden zusammenfallen.
Abbildung
zeigt, dass auch Satzzeichen an
anderen Stellen fehlen können.
Wie soll maschinell entschieden werden, ob und welches Satzzeichen
zwischen ,,Klasse`` und ,,ich muss zu Zonko`` gesetzt werden soll,
wenn die wörtliche Rede als eigenes Segment extrahiert werden würde?
Die OSCAR Segmentation Working Group3.18hat einen ersten Entwurf für einen Standard zum Beschreiben von
Segmentierungsregeln vorgestellt.
Der Entwurf wird hier diskutiert, um zu zeigen, mit welchen Methoden
die Arbeitsgruppenmitglieder glauben, die Segmentierung leisten zu
können.3.19Grundlage des Standards sind reguläre Ausdrücke, die die möglichen
Zeichenfolgen vor
und nach einer Segmentgrenze angeben.
Zusätzlich können Ausnahmeregeln formuliert werden.
Wie die Regeln zusammenwirken, wird in dem Entwurf (noch) nicht
definiert.
Es sind keine Elemente vorhanden, um Ausnahmen auf bestimmte Regeln zu
beziehen.
Dies und das enthaltene Beispiel legen nahe, dass eine potenzielle
Segmentgrenze mit linkem Konkext
und rechtem Kontext
genau dann als Segmentgrenze akzeptiert wird, wenn
Im Entwurf wird ein Beispielregelsatz angegeben, der Punkt, Fragezeichen und Ausrufezeichen als Satzendemarkierungen erkennt und als Ausnahmen Nummerierungen von Listen und die Abkürzung ,,etc`` berücksichtigt. Um die XML-Notation des Standard hier nicht vorstellen zu müssen, sind die Regeln im folgenden als Mengen passend zur obigen Formel wiedergegeben:
[frame=none]
R = {
('[\.\?!]+', '\s'),
('', '\n'),
}
E = {
('^\s*[0-9]+\.', '\s'),
('[Ee][Tt][Cc]\.', ''),
}
Die Muster \s und \n stehen dabei für beliebigen Leeraum
und Zeilenumbrüche.
(Letzteres Muster wurde im Entwurf nicht definieren.)
Die erste Ausnahmeregel setzt voraus, dass vorangehende Segmentgrenzen
bereits identifiziert wurden, die Abarbeitung also sequentiell erfolgt.
Es wird nicht angedeutet, ob Zugriffsmöglichkeiten auf ein Lexikon geplant sind. Dies wäre sinnvoll, um nicht für jede einzelne Abkürzung eine Regel formulieren zu müssen. Ebensowenig kann mit tokenisiertem Text umgegangen werden, da keine Muster für Tokengrenzen definiert werden. POS-Muster und Grundformen können nicht für die Segmentierung herangezogen werden.