JLCL 2016 - Band 31(2) 17-24
Roland Mittmann
Automatisierter Abgleich des Lautstandes althochdeut-
scher Wortformen
Abstract
Um Texte einer Sprache automatisiert auf ihren möglichen Entstehungszeitraum und ihre dialektale
Zugehörigkeit hin zu untersuchen, werden für jedes erwartete Graphem und jede Flexionsendung
zunächst Entsprechungsregeln zwischen einer idealisierten Sprachform und den Sprachformen in
Grammatiken beschriebener Zeit-Dialekt-Räume erfasst. Anschließend werden mithilfe eines Com-
puterprogramms unter Anwendung dieser Regeln die belegten Wortformen mit ihren Entsprechun-
gen in der idealisierten Sprachform abgeglichen und für jeden Text die Übereinstimmungsgrade mit
den einzelnen Zeit-Dialekt-Räumen angegeben. Exemplarisch wird dieser Abgleich für eine althoch-
deutsche Wortform beschrieben und das Ergebnis der Analyse des zugehörigen Gesamttextes
dargestellt.
1
Untersuchungsthema
Seit jeher verändern sich Sprachen im Laufe der zeitlichen Entwicklung. Sobald ihre Sprecherge-
meinschaften in verschiedene Gruppen zerfallen, die nicht mehr dauerhaft miteinander in Kontakt
stehen, entwickeln sie zudem verschiedene Varietäten. Solange die Normierung einer Sprache nicht
erfolgt ist, bleibt die textliche Überlieferung daher sprachlich uneinheitlich.
Auch innerhalb eines Textes können Schwankungen auftreten, etwa wenn Sprecher verschiedener
Dialekte am selben Text arbeiten oder einen bestehenden Text korrigieren (vgl. etwa B
RAU-
NE
/R
EIFFENSTEIN
2004, § 3 und Anm. 1). Ein einzelner Autor kann ebenfalls verschiedenen dialektalen
Einflüssen unterworfen sein oder die im Laufe seines Lebens erfolgte sprachliche Veränderung in
seinen Niederschriften wiedergeben. Da vor der Erfindung des Buchdrucks Texte allein durch
Abschrift vervielfältigt wurden, kam es schließlich auch seitens der Kopisten – bewusst oder unbe-
wusst – zu sprachlichen Anpassungen bei dialektalen Formen bzw. infolge der zeitlichen Entwick-
lung.
Sind zu einem Teil der textlichen Überlieferung einer Sprache keine genaueren zeitlichen und
örtlichen Angaben bekannt, erscheint es denkbar, diese automatisiert auf ihre Übereinstimmung mit
verschiedenen Zeit-Dialekt-Räumen – also Zeitabschnitten mit Bezug auf die verschiedenen örtli-
chen Varietäten – zu untersuchen. Diese Untersuchung wird im Folgenden beschrieben. Vorausset-
zung dafür ist, dass Angaben zu den üblichen Entsprechungen der verschiedenen Phonem-Graph-
Entsprechungen (Lautverschriftungen, vgl. M
ITTMANN
2015b, 248) und der Flexionsendungen in den
einzelnen Zeit-Dialekt-Räumen vorliegen.
JLCL
Mittmann
18
2
Untersuchungsobjekt und Datengrundlage
Als Untersuchungssprache wird das Althochdeutsche gewählt, das ab etwa 750 überliefert ist und
um 1050 ins Mittelhochdeutsche übergeht (vgl. P
AUL ET AL
.
2007, § E 7). Das althochdeutsche Text-
korpus umfasst etwa 560.000 Wortformen und erscheint damit für die Untersuchung hinreichend
groß. Ein Teil des Korpus sind umfangreiche Texte mit einheitlicher Sprachform und bekannter
Überlieferungsgeschichte (etwa die Werke Notkers des Deutschen mit ca. 320.000 Wortformen)
1
Daneben umfasst es aber auch zahlreiche mittelgroße und kleinere Texte, deren Herkunft oft nicht
genau bekannt ist, sodass sich die Angaben in den Grammatiken zu zeitlichen und dialektalen
Unterschieden beim Laut- und Formenstand nicht auf sie stützen können. Ein Zirkelschluss ist für
diese Texte also ausgeschlossen, und die erstgenannten können zur Überprüfung der Untersu-
chungsmethode dienen.
Das Althochdeutsche weist eine deutlich erkennbare zeitliche Entwicklung auf und lässt sich in fünf
gut bezeugte Dialektgebiete (Alemannisch, Bairisch, Ostfränkisch, Rheinfränkisch und Mittelfrän-
kisch, vgl. B
RAUNE
/R
EIFFENSTEIN
2004, §§ 4-6) gliedern. Zur Abgrenzung werden zudem
drei west-
germanische Nachbarsprachen (Altsächsisch, Altniederfränkisch und Langobardisch, vgl. B
RAU-
NE
/R
EIFFENSTEIN
2004, § 2 u. Anm. 1) bei der Untersuchung hinzugenommen.
2
Die für die Untersuchung verwendeten Daten sind auf Grundlage des DFG-geförderten Projektes
Referenzkorpus Altdeutsch
erstellt worden. Das entstandene Korpus umfasst alle althochdeutschen
und altsächsischen Texte und weist eine umfangreiche morphologische Annotation auf (vgl.
www.deutschdiachrondigital.de
, L
INDE
/M
ITTMANN
2013
sowie
M
ITTMANN
2013).
3
Vorbereitung der Texte
Beleg
Kestírnis
Lemma
Gistirni
Übersetzung
Gestirn
Wortart Lemma
NA
Wortart Beleg
NA
Flexion Lemma
ja_Neut
Flexion Beleg 1
ja_Neut
Flexion Beleg 2
Sg_Gen
Abbildung 1: Korpusauszug aus der
St. Galler Schularbeit
(vereinfacht)
Ausgehend von den im Korpus angegebenen Lemmata und morphologischen Angaben werden
mithilfe eines Computerprogramms zunächst idealisierte Wortformen gebildet, die den für die
Untersuchung der zeitlichen und dialektalen Zuordnung benötigten Abgleich mit den belegten
Wortformen ermöglichen (vgl. M
ITTMANN
2015a, 68-74). Dazu werden je nach morphologischen
Werten Endungen angefügt oder ersetzt; bei Umlaut oder starken
Verben auch Vokalersetzungen
im Inlaut durchgeführt. Sowohl das für die Lemmatisierung der althochdeutschen Texte verwendete
Wörterbuch (S
PLETT
1993) als auch die zur Ermittlung der Flexionsformen verwendete Referenz-
grammatik (B
RAUNE
/R
EIFFENSTEIN
2004) orientieren sich am ostfränkischen Dialekt um 830, sodass
auch die idealisierten Wortformen den größten Teil der im ältesten Althochdeutschen noch be-
wahrten lautlichen Unterschiede wiedergeben (vgl. M
ITTMANN
2015b, 249).
Abbildung 1 zeigt eine Wortform aus dem
Referenzkorpus
mitsamt einigen Annotationszeilen. Um
die idealisierte Wortform zu erzeugen, wird die Ersetzungsregel für die Angaben
„N
3
, ja,