Journal for Language Technology and Computational Linguistics

Yüklə 3,56 Mb.

Pdf görüntüsü

səhifə	9/14
tarix	22.07.2018
ölçüsü	3,56 Mb.
	#57639

1 ... 6 7 8 9 10 11 12 13 14

JLCL 2016 - Band 31(2) 17-24

Automatisierter Abgleich des Lautstandes althochdeutscher Wortformen

{Masc|Neut}, Sg, Gen“

(Genitiv Singular eines maskulinen oder neutralen

-stämmigen Substantivs)

– also die grau hinterlegten Informationen – auf das Lemma angewendet. Das auslautende

-i

wird

somit durch

-ies

ersetzt, sodass eine idealisierte Wortform

gistirnies

entsteht, die dann mit dem

belegten

kestírnis

verglichen werden kann.

Vorbereitung der Untersuchung

Vor der Durchführung der Untersuchung müssen noch Entsprechungsregeln zwischen den ideali-

sierten und den belegten Wortformen mit Bezug auf die jeweiligen Zeit-Dialekt-Räume erstellt

werden. Dafür wird zunächst in Anlehnung an die Angaben bei B

RAUNE

/R

EIFFENSTEIN

(2004) die Zeit

von 750 bis 1150 in acht 50-Jahres-Abschnitte unterteilt, damit auch sprachliche Entwicklungen zum

Mittelhochdeutschen (ca. 1050–1350) hin erfasst sind. Auf diese Weise ergeben sich in Kombination

mit den zusammen acht Dialekten und Nachbarsprachen 64 Zeit-Dialekt-Räume, etwa

„Aleman-

nisch, 900–950“.

Anschließend werden auf Grundlage von Referenzgrammatiken für die althochdeutschen (B

RAU-

EIFFENSTEIN

2004)

und frühmittelhochdeutschen Dialekte (P

AUL ET AL

. 2007) sowie die Nach-

barsprachen – G

ALLÉE

IEFENBACH

(1993) fürs Altsächsische, B

REMMER

UAK

(1992) fürs Altnieder-

fränkische/Altniederländische und B

RUCKNER

(1895) fürs Langobardische – Entsprechungsregeln

erstellt. Die einzelnen Phonem-Graph-Entsprechungen werden dabei nach ihrer Stellung im Wort

unterschieden, um der jeweils unterschiedlichen Entwicklung Rechnung zu tragen: Konsonanten

nach Anlaut, Inlaut und Auslaut; Vokale (und Diphthonge) nach Präfix, Tonsilbe, Mittelsilbe und

Endsilbe.

Darüber hinaus ist in zahlreichen Fällen auch die Umgebung der jeweiligen Phoneme

entscheidend, wie Abbildung 2 zeigt:

> {g|k|c} / #_i

für “Alemannisch oder Bairisch, 750–1050”

> {g|gh|j|Ø} / #_i

für

“Altsächsisch”

(ohne zeitliche Eingrenzung)

> e / _rC (Tonsilbe) für “Altniederfränkisch oder Altsächsisch”

Abbildung 2: Beispiele für Entsprechungsregeln für spezifische Zeit-Dialekt-Räume

Neben den Phonem-Graph-Entsprechungen werden für die flektierenden Wortarten auch Flexions-

endungen mit gleicher Funktion, aber über den unterschiedlichen Lautstand hinaus auch dialektal

unterschiedlicher morphologischer Bildeweise, betrachtet. So lässt sich etwa beim Nominativ Plural

der

a

-stämmigen maskulinen Substantive die altalemannische Endung

-ā

auf gemeingermanisches

rekonstruiertes

*-o

und schließlich auf urindogermanisches

*-oes

zurückführen, die altsächsische

Endung

-os

dagegen auf gemeingermanisches

*-o

siz

und schließlich auf urindogermanisches

*-óeses

(vgl. K

ROGH

1996, 295 i. V. m. B

AMMESBERGER

1990, 43 f.).

Bei der althochdeutschen Endungsvari-

ante

-a

wiederum liegt wohl eine Übernahme der gleichlautenden Akkusativendung vor (vgl. K

ROGH

ebd.).

Auf diese Weise ergeben sich 707 Entsprechungsregeln: 203 für Flexionsendungen (plus 21 Regeln

für Stammallomorphie) sowie 483 für Phonem-Graph-Entsprechungen (166 für Konsonanten und

317 für Vokale).

5

Durchführung der Untersuchung

Für jeden Text wird eine Wort-für-Wort-Prüfung durchgeführt, indem die Entsprechungsregeln auf

dessen einzelne Phonem-Graph-Entsprechungen und Flexionsendungen angewendet werden. Dabei

JLCL

Mittmann

wird berücksichtigt, dass das Korpus nur wortweise aligniert ist und oft keine 1:1-Zuordnungen der

Phonem-Graph-Entsprechungen zueinander vorliegen. Im Althochdeutschen gilt, von Ausnahmen

abgesehen, Anfangsbetonung, und aufgrund der schon in ältester Zeit (vgl. B

RAUNE

EIFFENSTEIN

2004, § 54) beginnenden Vokalreduktion in den unbetonten Silben – bis hin zum Schwund –

sowie des Auftretens epenthetischer Vokale und Konsonanten (vgl. ebd., § 69) ist vor allem

in den

Mittelsilben mit mangelnden Entsprechungen zu rechnen. Um möglichst viele automatisierte Laut-

zuordnungen zu ermöglichen, erfolgt die Prüfung daher von beiden Wortenden aus zur Mitte hin.

Da Komposita und Präfixe im Korpus nicht markiert sind, wird jedoch auch in Mittel- und Endsil-

ben geprüft, ob ein betonter Vokal vorliegt. Zudem wird die Möglichkeit von Doppel- und Einfach-

schreibung stets mitberücksichtigt.

Sofern das Wort flektiert, wird zunächst die Endung ermittelt und mit den in den einzelnen Zeit-

Dialekt-Räumen bezeugten Formen abgeglichen. Unterschiede zwischen verschiedenen Endungsfor-

men mit dem gleichen zugrundeliegenden Lautstand werden an dieser Stelle nicht berücksichtigt.

Unabhängig davon erfolgt dann der Abgleich eines eventuellen auslautenden (sowie eventueller

diesem vorangehenden inlautender) Konsonanten, danach in mehrsilbigen Wörtern des Endsilben-

vokals und des diesem vorangehenden inlautenden Konsonanten. Ist die Endung hiervon noch nicht

vollständig abgedeckt, werden noch weitere Mittelsilbenvokale und inlautende Konsonanten abgegli-

chen. Anschließend wird der Abgleich am Wortanfang mit einem eventuellen anlautenden (sowie

eventuellen diesem folgenden inlautenden) Konsonanten und dem Tonsilbenvokal fortgesetzt,

gefolgt von Mittelsilbenvokalen und inlautenden Konsonanten. Falls der Lautstand den Beginn mit

einem unbetonten Präfix zulassen könnte, wird diese Möglichkeit für den ersten Vokal mit einbezo-

gen.

Findet sich keine passende Entsprechungsregel, bricht das Programm die Untersuchung der Wort-

form vom Ende zur Mitte hin bzw. vom Anfang zur Mitte hin ab. Erfolgt der Abbruch unmittelbar

im Auslaut oder Anlaut, wird die Prüfung also ausschließlich in die jeweils andere Richtung durch-

geführt. Passen sowohl die Endung als auch Auslaut und Anlaut nicht, wird die Wortform vollstän-

dig übersprungen, da in diesem Fall von einer Fehlzuweisung auszugehen ist, die bei einem Korpus

dieser Größe nicht ausgeschlossen werden kann.

Um den Übereinstimmungsgrad eines Textes mit den einzelnen Zeit-Dialekt-Räumen zu ermitteln,

wird dieser mit jeder Regelanwendung für alle 64 Zeit-Dialekt-Räume – jeweils beginnend bei 0 –

erhöht oder gesenkt. Da eine nur in wenigen Zeit-Dialekt-Räumen verbreitete Lautform für die

Zuordnung eines Textes als deutlich signifikanter gelten kann als eine, die in fast allen Zeit-Dialekt-

Räumen vorkommt, wird jedes Mal die Gesamtzahl der Zeit-Dialekt-Räume (64) durch die Zahl der

(nicht) zutreffenden Zeit-Dialekt-Räume geteilt und 1 davon abgezo gen: So ergibt sich etwa eine Ver-

änderung von ± 0, wenn alle Zeit-Dialekt-Räume zutreffen (64/64 - 1), und eine Veränderung von

+ 4,3

für die in Abbildung 2 zuoberst genannte Regel, die auf zwölf Zeit-Dialekt-Räume zutrifft

(64/12 - 1). Der ermittelte absolute Übereinstimmungsgrad jedes einzelnen Zeit-Dialekt-Raums wird

schließlich prozentual auf den Übereinstimmungsgrad eines fiktiven („idealen“) Zeit-Dialekt-Raums

bezogen, der dem jeweiligen Text exakt entspricht, sodass sich ein relativer Übereinstimmungsgrad

ergibt.

Yüklə 3,56 Mb.

Dostları ilə paylaş:

1 ... 6 7 8 9 10 11 12 13 14