HS Automatische Erstellung linguistischer Ressourcen

Baumbanken, Parsing, Evaluation (Blockseminar), A/C*

Dozentin: Ines Rehbein

Typ: HS

Zeit: Sommersemester 2008, Blockseminar, Einführung am Freitag 18.04.2008 16-18

Ort: DOR 24, 3.308 / 1.305 (PC Pool)

Termine

Block I

18.4.2008 16-18 Einführung (Dor 24, 3.308)

19.4.2008 10-16 Baumbanken / Überblick (PC Pool)

Block II

16.5.2008 14-18 Baumbanken und Annotationsschemata (PC Pool)

17.5.2008 10-16 Von der Baumbank zur Grammatik (PC Pool)

Block III

27.6.2008 14-18 PCFG Parsing (PC Pool)

28.6.2008 10-16 Parsing und Evaluation (PC Pool)

Kursbeschreibung

Die angebotene Lehrveranstaltung dienst zur Vertiefung von Syntaxkenntnissen und zur Erarbeitung von theoretischen und praktischen Kenntnissen im Bereich Baumbanken und Probabilistischem Parsen. Darüber hinaus erhalten die Studierenden die Möglichkeit, sich mit dem Betriebssystem LINUX und linguistischen Computer-Tools zur Verarbeitung natürlicher Sprachen vertraut zu machen.

Linguistische Ressourcen sind notwendige Bestandteile vieler Anwendungen bei der Verarbeitung natürlicher Sprache. Allerdings ist die manuelle Erstellung solcher Ressourcen extrem zeitaufwendig und wird deshalb oft als der „Flaschenhals“ bei der Verarbeitung natürlicher Sprache bezeichnet. Automatische Verfahren zur Erstellung solcher Ressourcen sind zwar zeit- und kostengünstiger, aber oft auch fehlerträchtig und daher von begrenzter Nützlichkeit.

Im Seminar werden wir ein Beispiel einer solchen linguistischen Ressource anschauen: syntaktisch annotierte Textkorpora (Baumbanken). Baumbanken werden semi-automatisch erstellt und dienen unter anderem zum Training von syntaktischen Parsern. Heute gibt es Baumbanken für viele verschiedene Spr achen und basierend auf verschiedenen linguistischen Grammatiktheorien. Wir werden verschiedene Annotationsschemata vergleichen und ihre Vor- und Nachteile diskutieren. Weiter werden wir der Frage nachgehen, wie man aus einer Baumbank eine Gr ammatik auslesen kann. Wir werden grundlegende Konzepte des Probabilistischen Parsens besprechen und uns ansehen, welche besonderen Probleme beim Parsen des Deutschen auftreten. Das bringt uns zum Thema Parser-Evaluation: wie kann man den Output eines statistischen Parsers beurteilen?

Alle Themen werden anhand von praktischen Übungen veranschaulicht. (Selbermachen macht Spaß!)

Leistungsnachweis

Regelmäßige Teilnahme am Seminar, Übungen, Kurzvorträge

Kontakt

Ines Rehbein

National Center for Language Technology
School for Computing
Dublin City University

Email: irehbein at computing.dcu.ie

Seminarplan

Termin Zeit Themen Folien
Einführung 18.4.2008 16-18 Seminarplan (pdf)
Block I 19.4.2008 10-16 Baumbanken (Überblick)
Baumbanken fürs Deutsche Baumbanken (pdf)
Treebanking
Linux-Einführung linux intro (pdf)
TIGERSearch (Überblick) TIGERSearch (pdf)
Block II 16.5.2008 14-18 Baumbanken und Annotationsschemata Annotation (pdf)
16.5.2008 Von der Baumbank zur Grammatik Parsing (pdf)
17.5.2008 10-16 CFGs, PCFGs und Parsing
17.5.2008 Parsing-Modelle fürs Deutsche Deutsch parsen (pdf)
17.5.2008 Linux-Einführung (II) linux intro (pdf)
Block III 27.6.2008 14-18 Evaluation
27.6.2008
28.6.2008 10-16 Evaluation Evaluation (pdf)
28.6.2008
28.6.2008

Literatur

Links

Einführung in Linux

Sehr gute Einführung in Unix (Einloggen, Shells, Dateisystem, Editoren, Netzwerk, Kommando-Referenz) pdf

Praktische Einführung mit vielen Beispielen (Englisch) pdf

Kursunterlagen fürs Sommerstudium der Informatica Feminale 2001 in Bremen (ausführlicher Überblick über Systemarchitektur, Dateisystem, bash etc.) ps

Unix/Linux Kurz-Referenzen: pdf, pdf

POS-Tagging / STTS

STTS-Annotationsrichtlinien: pdf

STTS-Übersichtstabelle: html

Wortlisten für geschlossene Wortklassen: html

Helmut Schmid's TreeTagger: treeTagger

TiGer/TiGerSearch

TiGer Annotationsrichtlinien: pdf

TiGer-Intro: pdf

Parsing

Helmut Schmid's BitPar: bitpar

Evaluation

Evalb, eine Implementation der PARSEVAL Metrik: evalb

LA, die Leaf-Ancestor Metrik: LA

Übungen

Übung Themen Aufgabenblatt Abgabe bis
I POS-Tagging / STTS übung I 09.05.2008
II Tagging (TreeTagger) übung II 20.06.2008
III TIGERSearch Suchanfragen Übung III -
IV Parsing Übung IV 20.06.2008
 
start.txt · Zuletzt geändert: 2008/08/21 17:24 (Externe Bearbeitung)
 
Creative Commons License Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki