Journal for Language Technology and Computational Linguistics

Yüklə 3,56 Mb.

Pdf görüntüsü

səhifə	8/14
tarix	22.07.2018
ölçüsü	3,56 Mb.
	#57639

1 ... 4 5 6 7 8 9 10 11 ... 14

Automatisierter Abgleich des Lautstandes althochdeut- scher Wortformen

JLCL 2016 - Band 31(2) 17-24

Roland Mittmann

Automatisierter Abgleich des Lautstandes althochdeut-

scher Wortformen

Abstract

Um Texte einer Sprache automatisiert auf ihren möglichen Entstehungszeitraum und ihre dialektale

Zugehörigkeit hin zu untersuchen, werden für jedes erwartete Graphem und jede Flexionsendung

zunächst Entsprechungsregeln zwischen einer idealisierten Sprachform und den Sprachformen in

Grammatiken beschriebener Zeit-Dialekt-Räume erfasst. Anschließend werden mithilfe eines Com-

puterprogramms unter Anwendung dieser Regeln die belegten Wortformen mit ihren Entsprechun-

gen in der idealisierten Sprachform abgeglichen und für jeden Text die Übereinstimmungsgrade mit

den einzelnen Zeit-Dialekt-Räumen angegeben. Exemplarisch wird dieser Abgleich für eine althoch-

deutsche Wortform beschrieben und das Ergebnis der Analyse des zugehörigen Gesamttextes

dargestellt.

1

Untersuchungsthema

Seit jeher verändern sich Sprachen im Laufe der zeitlichen Entwicklung. Sobald ihre Sprecherge-

meinschaften in verschiedene Gruppen zerfallen, die nicht mehr dauerhaft miteinander in Kontakt

stehen, entwickeln sie zudem verschiedene Varietäten. Solange die Normierung einer Sprache nicht

erfolgt ist, bleibt die textliche Überlieferung daher sprachlich uneinheitlich.

Auch innerhalb eines Textes können Schwankungen auftreten, etwa wenn Sprecher verschiedener

Dialekte am selben Text arbeiten oder einen bestehenden Text korrigieren (vgl. etwa B

RAU-

EIFFENSTEIN

2004, § 3 und Anm. 1). Ein einzelner Autor kann ebenfalls verschiedenen dialektalen

Einflüssen unterworfen sein oder die im Laufe seines Lebens erfolgte sprachliche Veränderung in

seinen Niederschriften wiedergeben. Da vor der Erfindung des Buchdrucks Texte allein durch

Abschrift vervielfältigt wurden, kam es schließlich auch seitens der Kopisten – bewusst oder unbe-

wusst – zu sprachlichen Anpassungen bei dialektalen Formen bzw. infolge der zeitlichen Entwick-

lung.

Sind zu einem Teil der textlichen Überlieferung einer Sprache keine genaueren zeitlichen und

örtlichen Angaben bekannt, erscheint es denkbar, diese automatisiert auf ihre Übereinstimmung mit

verschiedenen Zeit-Dialekt-Räumen – also Zeitabschnitten mit Bezug auf die verschiedenen örtli-

chen Varietäten – zu untersuchen. Diese Untersuchung wird im Folgenden beschrieben. Vorausset-

zung dafür ist, dass Angaben zu den üblichen Entsprechungen der verschiedenen Phonem-Graph-

Entsprechungen (Lautverschriftungen, vgl. M

ITTMANN

2015b, 248) und der Flexionsendungen in den

einzelnen Zeit-Dialekt-Räumen vorliegen.

JLCL

Mittmann

2

Untersuchungsobjekt und Datengrundlage

Als Untersuchungssprache wird das Althochdeutsche gewählt, das ab etwa 750 überliefert ist und

um 1050 ins Mittelhochdeutsche übergeht (vgl. P

AUL ET AL

2007, § E 7). Das althochdeutsche Text-

korpus umfasst etwa 560.000 Wortformen und erscheint damit für die Untersuchung hinreichend

groß. Ein Teil des Korpus sind umfangreiche Texte mit einheitlicher Sprachform und bekannter

Überlieferungsgeschichte (etwa die Werke Notkers des Deutschen mit ca. 320.000 Wortformen)

Daneben umfasst es aber auch zahlreiche mittelgroße und kleinere Texte, deren Herkunft oft nicht

genau bekannt ist, sodass sich die Angaben in den Grammatiken zu zeitlichen und dialektalen

Unterschieden beim Laut- und Formenstand nicht auf sie stützen können. Ein Zirkelschluss ist für

diese Texte also ausgeschlossen, und die erstgenannten können zur Überprüfung der Untersu-

chungsmethode dienen.

Das Althochdeutsche weist eine deutlich erkennbare zeitliche Entwicklung auf und lässt sich in fünf

gut bezeugte Dialektgebiete (Alemannisch, Bairisch, Ostfränkisch, Rheinfränkisch und Mittelfrän-

kisch, vgl. B

RAUNE

/R

EIFFENSTEIN

2004, §§ 4-6) gliedern. Zur Abgrenzung werden zudem drei west-

germanische Nachbarsprachen (Altsächsisch, Altniederfränkisch und Langobardisch, vgl. B

RAU-

NE

/R

EIFFENSTEIN

2004, § 2 u. Anm. 1) bei der Untersuchung hinzugenommen.

Die für die Untersuchung verwendeten Daten sind auf Grundlage des DFG-geförderten Projektes

Referenzkorpus Altdeutsch

erstellt worden. Das entstandene Korpus umfasst alle althochdeutschen

und altsächsischen Texte und weist eine umfangreiche morphologische Annotation auf (vgl.

www.deutschdiachrondigital.de

, L

INDE

ITTMANN

2013

sowie

ITTMANN

2013).

3

Vorbereitung der Texte

Beleg

Kestírnis

Lemma

Gistirni

Übersetzung

Gestirn

Wortart Lemma

Wortart Beleg

Flexion Lemma

ja_Neut

Flexion Beleg 1

ja_Neut

Flexion Beleg 2

Sg_Gen

Abbildung 1: Korpusauszug aus der

St. Galler Schularbeit

(vereinfacht)

Ausgehend von den im Korpus angegebenen Lemmata und morphologischen Angaben werden

mithilfe eines Computerprogramms zunächst idealisierte Wortformen gebildet, die den für die

Untersuchung der zeitlichen und dialektalen Zuordnung benötigten Abgleich mit den belegten

Wortformen ermöglichen (vgl. M

ITTMANN

2015a, 68-74). Dazu werden je nach morphologischen

Werten Endungen angefügt oder ersetzt; bei Umlaut oder starken Verben auch Vokalersetzungen

im Inlaut durchgeführt. Sowohl das für die Lemmatisierung der althochdeutschen Texte verwendete

Wörterbuch (S

PLETT

1993) als auch die zur Ermittlung der Flexionsformen verwendete Referenz-

grammatik (B

RAUNE

/R

EIFFENSTEIN

2004) orientieren sich am ostfränkischen Dialekt um 830, sodass

auch die idealisierten Wortformen den größten Teil der im ältesten Althochdeutschen noch be-

wahrten lautlichen Unterschiede wiedergeben (vgl. M

ITTMANN

2015b, 249).

Abbildung 1 zeigt eine Wortform aus dem

Referenzkorpus

mitsamt einigen Annotationszeilen. Um

die idealisierte Wortform zu erzeugen, wird die Ersetzungsregel für die Angaben

„N

, ja,

Yüklə 3,56 Mb.

Dostları ilə paylaş:

1 ... 4 5 6 7 8 9 10 11 ... 14