Baumbanken, Parsing, Evaluation (Blockseminar), A/C*
Dozentin: Ines Rehbein
Typ: HS
Zeit: Sommersemester 2008, Blockseminar, Einführung am Freitag 18.04.2008 16-18
Ort: DOR 24, 3.308 / 1.305 (PC Pool)
Block I
18.4.2008 16-18 Einführung (Dor 24, 3.308)
19.4.2008 10-16 Baumbanken / Überblick (PC Pool)
Block II
16.5.2008 14-18 Baumbanken und Annotationsschemata (PC Pool)
17.5.2008 10-16 Von der Baumbank zur Grammatik (PC Pool)
Block III
27.6.2008 14-18 PCFG Parsing (PC Pool)
28.6.2008 10-16 Parsing und Evaluation (PC Pool)
Die angebotene Lehrveranstaltung dienst zur Vertiefung von Syntaxkenntnissen und zur Erarbeitung von theoretischen und praktischen Kenntnissen im Bereich Baumbanken und Probabilistischem Parsen. Darüber hinaus erhalten die Studierenden die Möglichkeit, sich mit dem Betriebssystem LINUX und linguistischen Computer-Tools zur Verarbeitung natürlicher Sprachen vertraut zu machen.
Linguistische Ressourcen sind notwendige Bestandteile vieler Anwendungen bei der Verarbeitung natürlicher Sprache. Allerdings ist die manuelle Erstellung solcher Ressourcen extrem zeitaufwendig und wird deshalb oft als der „Flaschenhals“ bei der Verarbeitung natürlicher Sprache bezeichnet. Automatische Verfahren zur Erstellung solcher Ressourcen sind zwar zeit- und kostengünstiger, aber oft auch fehlerträchtig und daher von begrenzter Nützlichkeit.
Im Seminar werden wir ein Beispiel einer solchen linguistischen Ressource anschauen: syntaktisch annotierte Textkorpora (Baumbanken). Baumbanken werden semi-automatisch erstellt und dienen unter anderem zum Training von syntaktischen Parsern. Heute gibt es Baumbanken für viele verschiedene Spr achen und basierend auf verschiedenen linguistischen Grammatiktheorien. Wir werden verschiedene Annotationsschemata vergleichen und ihre Vor- und Nachteile diskutieren. Weiter werden wir der Frage nachgehen, wie man aus einer Baumbank eine Gr ammatik auslesen kann. Wir werden grundlegende Konzepte des Probabilistischen Parsens besprechen und uns ansehen, welche besonderen Probleme beim Parsen des Deutschen auftreten. Das bringt uns zum Thema Parser-Evaluation: wie kann man den Output eines statistischen Parsers beurteilen?
Alle Themen werden anhand von praktischen Übungen veranschaulicht. (Selbermachen macht Spaß!)
Regelmäßige Teilnahme am Seminar, Übungen, Kurzvorträge
Ines Rehbein
National Center for Language Technology
School for Computing
Dublin City University
Email: irehbein at computing.dcu.ie
| Termin | Zeit | Themen | Folien | |
|---|---|---|---|---|
| Einführung | 18.4.2008 | 16-18 | Seminarplan (pdf) | |
| Block I | 19.4.2008 | 10-16 | Baumbanken (Überblick) | |
| Baumbanken fürs Deutsche | Baumbanken (pdf) | |||
| Treebanking | ||||
| Linux-Einführung | linux intro (pdf) | |||
| TIGERSearch (Überblick) | TIGERSearch (pdf) | |||
| Block II | 16.5.2008 | 14-18 | Baumbanken und Annotationsschemata | Annotation (pdf) |
| 16.5.2008 | Von der Baumbank zur Grammatik | Parsing (pdf) | ||
| 17.5.2008 | 10-16 | CFGs, PCFGs und Parsing | ||
| 17.5.2008 | Parsing-Modelle fürs Deutsche | Deutsch parsen (pdf) | ||
| 17.5.2008 | Linux-Einführung (II) | linux intro (pdf) | ||
| Block III | 27.6.2008 | 14-18 | Evaluation | |
| 27.6.2008 | ||||
| 28.6.2008 | 10-16 | Evaluation | Evaluation (pdf) | |
| 28.6.2008 | ||||
| 28.6.2008 |
Einführung in Linux
Sehr gute Einführung in Unix (Einloggen, Shells, Dateisystem, Editoren, Netzwerk, Kommando-Referenz) pdf
Praktische Einführung mit vielen Beispielen (Englisch) pdf
Kursunterlagen fürs Sommerstudium der Informatica Feminale 2001 in Bremen (ausführlicher Überblick über Systemarchitektur, Dateisystem, bash etc.) ps
Unix/Linux Kurz-Referenzen: pdf, pdf
POS-Tagging / STTS
STTS-Annotationsrichtlinien: pdf
STTS-Übersichtstabelle: html
Wortlisten für geschlossene Wortklassen: html
Helmut Schmid's TreeTagger: treeTagger
TiGer/TiGerSearch
TiGer Annotationsrichtlinien: pdf
TiGer-Intro: pdf
Parsing
Helmut Schmid's BitPar: bitpar
Evaluation
Evalb, eine Implementation der PARSEVAL Metrik: evalb
LA, die Leaf-Ancestor Metrik: LA