Journal for Language Technology and Computational Linguistics



Yüklə 3,56 Mb.
Pdf görüntüsü
səhifə2/14
tarix22.07.2018
ölçüsü3,56 Mb.
#57639
1   2   3   4   5   6   7   8   9   ...   14

Florian Petran, Marcel Bollmann, Stefanie Dipper, Thomas Klein

ReM: A reference corpus of Middle High German —

corpus compilation, annotation, and access

1 Introduction

In recent times, there has been a growing interest in digitized and annotated corpora of

historical language data, coming from both historical linguists as well as the emerging

historico-cultural domain of digital humanities. For German, an initiative with the goal

of creating a diachronic reference corpus was started in the 2000s, which has so far

yielded four different research projects:

1

• Reference Corpus Old German (ReA, 750–1050),



• Reference Corpus Middle High German (ReM, 1050–1350),

• Reference Corpus Early New High German (ReF, 1350–1650), and

• Reference Corpus Middle Low German and Low Rhenish (ReN, 1200–1650).

This paper describes ReM and the results of the ReM project and its predecessors.

All projects closely collaborate in developing common annotation standards to allow

for diachronic investigations. ReA has already been published and made available via

the corpus search tool ANNIS

2

(Krause and Zeldes, 2016), while ReF and ReN are still



in the annotation process.

The ReM project builds on several earlier annotation efforts, such as the corpus of

the new Middle High German Grammar (MiGraKo, Klein et al. (2009)), expanding

them and adding further texts, to produce a reference corpus for Middle High German,

which we will also call “ReM” for short. The combined corpus, which consists of around

two million tokens, provides a mostly complete collection of written records from Early

Middle High German (1050–1200) as well as a selection of Middle High German texts

from 1200 to 1350. Texts have been digitized and annotated with parts of speech

and morphology (using the HiTS tagset, cf. Dipper et al. (2013)) as well as lemma

information.

Release 1.0 of ReM has been published in December 2016 and is also accessible via

the ANNIS tool. The project website at https://www.linguistics.ruhr-uni-bochum.

de/rem/ offers extensive documentation of the project and the corpus. The corpus

1

ReA project: http://www.deutschdiachrondigital.de/home/?lang=en, ReM project: https://www.



linguistics.ruhr-uni-bochum.de/rem, ReF project: http://www.ruhr-uni-bochum.de/wegera/ref/,

ReN project: https://vs1.corpora.uni-hamburg.de/ren/

2

http://corpus-tools.org/annis/



JLCL 2016 – Band 31 (2) – 1-15


Petran, Bollmann, Dipper, Klein

design as well as the transcription and annotation guidelines are described in Klein and

Dipper (2016).

In the remainder of this paper, we briefly discuss the textual basis of the corpus

(Sec. 2) and its annotation layers (Sec. 3). Sec. 4 explains the semi-automatic annotation

process and the tools used for it, some of which date back to the mid to late 1980s. In

Sec 5 we present the XML based document format that will be used to distribute the

corpus. Sec. 6 deals with the presentation of the corpus in ANNIS.



2 Textual basis

The reference corpus of Middle High German (ReM) combines the work of several

different research efforts:

1. the Cologne corpus of Hessian-Thuringian texts (created between 1986 and 1993;

cf. Klein and Bumke (1997));

2. the Bonn corpus of Middle German texts (created from 1993 onwards);

3. the Bochum Middle High German corpus (BoMiKo) and its successor, the corpus

of the Middle High German grammar (MiGraKo

3

, Klein et al. (2009)); and



4. an extension/supplement of the aforementioned corpora, created during the ReM

project.


MiGraKo is a balanced and structured corpus, composed of roughly equally-sized

texts and text extracts from different dialect areas, time periods and text sorts (cf.

Wegera, 2000). It already incorporates some of the texts annotated in the Cologne and

Bonn corpora that preceded it. In total, MiGraKo consists of 102 texts and about 1,25

million tokens. The main goal of the ReM project was to create an even larger reference

corpus of Middle High German, by combining data from all of the preceding projects,

adding more texts, and also extending some of the existing annotations.

We distinguish two time periods within the corpus. The first half from ca. 1050

to ca. 1200, called Early Middle High German, is more important for the historical

development of the German language, regarding the transition from Old High German,

but also some of the beginnings of the development of New High German. At the same

time, text sources from that period are scarce, so that it is hardly possible to obtain a

structured and balanced selection. For that reason, the ReM corpus includes a mostly

complete record of all available Early Middle High German texts, with the exception of

a few heavily fragmented sources and those which are merely copies of an older text.

Overall, the first part of the corpus includes about 700,000 tokens in 184 texts between

6 and 59,000 tokens in length.

For the second part of the corpus, the later Middle High German period, the avail-

ability of sources is much better. Here, the focus was on extending and supplementing

3

http://www.ruhr-uni-bochum.de/wegera/MiGraKo/



2

JLCL


ReM: A reference corpus of Middle High German

the selection of texts in the MiGraKo corpus. In general, the selection is more diverse

as the underlying MiGraKo part, e.g. including heterogeneous texts written by different

authors in different dialects, texts whose manuscripts are considerably younger than the

text’s presumable time of origin, or larger text segments that are suitable for syntactic

analyses. This part has 214 texts with between 20 and 55,000 tokens each, totalling

about 1.8 million tokens.

The entire ReM corpus consists of around 2.5 million tokens.



3 Transcription and annotation

The earliest transcriptions and annotations, and with it the earliest version of the

guidelines, date back to 1986. Therefore, they still reflect the computer technology of

the 1980s in many ways.

The original transcriptions of the ReM texts served two goals. First, they encoded fine-

grained properties of the historical word forms, resulting in a diplomatic transcription.

The transcriptions used special characters and markup to encode historical graphemes,

diacritics and abbreviations. For instance, ‘$’ encoded historical ‘ſ’, ‘o\v’ stood for ‘

v

o’,


and ‘o\-’ for ‘o’.

Second, the original transcriptions encoded information about modern word bound-

aries, thus supporting further (semi-)automatic processing of the word forms. That is,

markup was used to indicate modern word boundaries in cases where the historical

word forms, as marked by whitespace, did not correspond to modern word forms. For

instance, the historical form ‘biſtu’ (‘are you’) would be transcribed as ‘bi$|tu’. The

vertical bar indicated a modern word boundary because the historical form corresponds

to two word forms according to modern spelling rules: ‘biſ’ + ‘tu’ (‘are’ + ‘you’).

In ReM corpus, this information has been projected to two different layers, called

“diplomatic” (dipl) and “annotated” (anno). The diplomatic layer records historical

graphemes, by converting special encodings for historical characters to appropriate

UTF characters. The diplomatic layer also conserves original word boundaries and line

breaks. The annotated layer uses ASCII characters only and adapts word boundaries

to the rules of modern German. For an example, see (1).

(1)

dipl ſo biſtu

anno so bis tu

‘so you are’

Both the diplomatic and the modernized layers are annotated with further information.

Each diplomatic token is assigned its exact location in the text (page number, line

number, column, etc.).

4

All further annotations refer to the annotated token layer.



These are:

4

In some cases the original manuscript was lost or destroyed, in those cases the diplomatic tokens



are assigned their location in the edition used for the transcription

JLCL 2016 – Band 31 (2)

3


Yüklə 3,56 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   14




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə