ViezKorpus



ViezSprache






Das ViezKorpus ist eine digitale Sammlung von schriftlichen deutschen Texten zum Thema Viez mit einer Größe von ca. 77.000 Textwörtern. Es beinhaltet Texte rund um Viez zu den Themen allgemeine Geschichte, Etymologie, Herstellung und Obstanbau, Porz, Erzählungen und Poesie. Weitere Informationen zu den Referenzen im ViezKorpus bietet die öffentlich verfügbare Bibliographiedatenbank in Zotero.
Ein Textkorpus, wie das ViezKorpus, verwendet man in der Sprachwissenschaft, Computerlinguistik und den Digital Humanities um linguistische Untersuchungen durchführen zu können. So können Forschungsthesen überprüft oder entdeckt sowie neue Informationen und Perspektiven zu einem Thema gewonnen werden, da ein Textkorpus die Varianz und Vielfalt von sprachlichen Phänomenen dokumentieren kann.


Erstellung des ViezKorpus

Für die Erstellung des ViezKorpus wurden digitale Textdaten aus dem Internet sowie analoge Textdaten aus Büchereien und Bibliotheken gesammelt. Die analogen Textdaten, wie Bücher oder Zeitschriften, wurden eingescannt. Anschließend wurde der Text der gescannten Dokumente mittels einer Texterkennungssoftware – auch bekannt als OCR (Optical Character Recognition) – extrahiert.
Eine OCR-Software verarbeitet gewöhnlich das gescannte Dokument als Bilddatei und führt Bildkorrekturen (z.B. Kontrast), eine Segmentierung (Erkennung von Wörtern oder Zeilen sowie des Layouts, wie bspw. einem Textabsatz), eine Zeichenerkennung (Musterabgleich von Bildpixeln oder mit Verwendung maschineller Lernverfahren) und eine Nachbereitung (z.B. Einsatz einer Liste von Wörtern der entsprechenden Sprache) durch. Im Projekt Digital Viez wurde für die automatische Erkennung von Zeichen eine auf künstliche Intelligenz basierende OCR-Software verwendet. Fehlerhafte Zeichenerkennungen, die meistens bei moselfränkischen Wörtern und Sonderzeichen auftraten, wurden abschließend manuell korrigiert.
Die gesamten extrahierten Textdaten liegen somit in einem maschinenlesbaren Format vor und können für weitere linguistische Analysen und Informationsvisualisierungen, wie einer Word-Cloud oder Schlagwortwolke, verwendet werden.





Vermerken von linguistischen Informationen – Korpusannotation

Um das rohe Textkorpus besser analysieren zu können, wird dieses häufig annotiert. Dies bedeutet, dass (linguistische) Informationen manuell oder mit einem entsprechenden Textanalysewerkzeug hinzugefügt werden. Das ViezKorpus wurde mithilfe des webbasierten Tools Sketch Engine ausschließlich mit Wortarten annotiert. Dieses zerlegt die Textdaten mit einem sogenannten Tokenizer in Token. Ein Token ist die kleinste Einheit aus der ein Korpus besteht und bezieht sich normalerweise auf: Wortformen (Getränk, Viez, usw.), Satzzeichen (Komma, Punkt, usw.), Zahlen, Abkürzungen sowie sonstigen Zeichen zwischen Leerzeichen. Den einzelnen Token des Korpus werden anschließend mit einem speziellen Werkzeug, einem sogenannten Tagger, automatisch ihre Wortartklassen zugeordnet (Part-of-Speech-Tagging) sowie die Wörter auf ihre Grundform zurückgeführt (Lemmatisierung). Zusammengefasst liegen die zu Beginn unstrukturierten Textdaten des rohen Korpus nun in strukturierter Form vor, die linguistische Untersuchungen und Statistiken ermöglicht.
So kann man ermitteln, dass das ViezKorpus insgesamt aus 93.111 Token, 3.873 Sätzen und 77.096 Wörtern besteht. Einige der 21.610 Nomen, 5.047 Adverbien, 10.737 Verben sowie 8.632 Adjektive sind in den nebenstehenden Buchstaben zu sehen.
Es lassen sich außerdem Wahrscheinlichkeiten zum gemeinsamen Auftreten von Wörtern berechnen und einfacher auffinden, wie bspw. bei der Kombination von „gammer“ und „Viez“ (Kollokationen). Auch Wörter, die in ähnlichen Kontexten wie einem Zielwort vorkommen (z.B. verwandte Begriffe zum Wort Viez), können so mit einem Thesaurus basierend auf der Hypothese der distributionellen Semantik schneller entdeckt und identifiziert werden. Mehr Informationen zu verwandten Begriffen zu Viez und seinem etymologischen Ursprung ist unter ViezEtymologie zu finden.

Informationsvisualisierung – Häufigkeiten als Schlagwortwolke

Die denkbar einfachste Analyse, die sich an einem solchen Textkorpus durchführen lässt, ist die Betrachtung der Worthäufigkeiten. Hierfür gibt es verschiedene Häufigkeitsmaße. Zählt man lediglich zusammen, wie oft ein Wort im Korpus vorkommt, erhält man die sogenannte absolute Häufigkeit, das simpelste Häufigkeitsmaß. Diese Zahl lässt sich zwar unkompliziert ermitteln, ist allerdings in vielen Fällen, z. B. wenn man Vergleiche aufstellen möchte, nicht ausreichend. Es ist schließlich ein Unterschied, ob das Wort „Viez“ 1042 Mal in einem Korpus mit ca. 77.000 Wörtern – wie im Falle des ViezKorpus – oder in einer Textsammlung mit 1 Million Wörtern vorkommt. Auch innerhalb eines Korpus sind 10 Vorkommen in einem kurzen Artikel nicht vergleichbar mit der gleichen Anzahl an Vorkommen in einem ganzen Buch.
Um den Einfluss der Länge zu beseitigen, kann man die sogenannte relative Häufigkeit berechnen. Dafür wird die absolute Häufigkeit durch die Textlänge, also die Anzahl der Wörter im Text, geteilt. Um Aussagen über die Häufigkeit eines Wortes in einem Korpus treffen zu können, ist es sinnvoll, den Mittelwert der relativen Häufigkeiten zu ermitteln. Dies geschieht, indem man die Summe der relativen Häufigkeiten durch die Anzahl an Texten teilt. Man kann allerdings auch das gesamte Korpus als einen zusammenhängenden Text behandeln und lediglich die absolute Häufigkeit durch die Gesamtzahl der Wörter im Korpus teilen. Dieser Ansatz eignet sich vor allem, um die Häufigkeiten eines Wortes oder Ausdrucks zwischen verschiedenen, unterschiedlich großen Korpora zu vergleichen.
Der Unterschied wird an folgendem Beispiel deutlich: obwohl „Apfelwein“ und „Wein“ fast gleich oft in der Textsammlung vorkamen, ist die durchschnittliche relative Häufigkeit – und somit auch die Größe in der Visualisierung – bei „Wein“ um einiges geringer. Dies liegt daran, dass das Wort in wesentlich weniger Texten gefunden wurde. Mit der Verwendung des Durchschnitts lässt sich also der Einfluss des häufigen Gebrauchs in wenigen Texten ausgleichen.
Hat man die Häufigkeiten berechnet, gibt es verschiedene Möglichkeiten die Ergebnisse darzustellen, z. B. als einfache Tabelle, Balkendiagramm oder Schlagwortwolke (auch Word-Cloud genannt). Letzteres ist eine Methode zur Informationsvisualisierung, die sich besonders dafür eignet, eine große Anzahl an Wörtern und deren Häufigkeit anschaulich darzustellen.

Erstellung der Word-Clouds

Die Schriftgröße eines Wortes in einer Word-Cloud wird durch dessen Häufigkeit bestimmt. Es ist daher nicht überraschend, dass das Wort „Viez“ das häufigste – und somit auch am größten dargestellte – Wort im (bereinigten) ViezKorpus ist.
Die Word-Clouds dieser Seite wurden in der Programmiersprache Python erstellt. Zunächst wurde das in Form von Textdateien vorliegende ViezKorpus – bis auf die etwas zu spezifischen Texte zur Etymologie und die Gedichte in Mundart – eingelesen. Um Häufigkeiten von Wörtern zählen zu können, müssen diese im Text als solche identifiziert werden. Dies ist bei der computergestützten Verarbeitung von Texten allgemein der erste Schritt und wird Tokenisierung genannt. Je nach Untersuchungsgegenstand werden anschließend bestimmte Bestandteile des Textes – wie Satzzeichen, Klammern oder sogenannte Stopwords, die nicht mitgezählt werden sollen – entfernt. Stopwords sind Wörter, die keine oder nur eine geringe Aussagekraft haben und in der Regel bei der Textverarbeitung entfernt werden. Im Deutschen sind das z.B. Artikel oder Präpositionen wie „in“ und „von“. Hätte man diesen Schritt bei der Analyse des ViezKorpus übersprungen, wären Komma, Punkt, „der“, „die“ sowie „und“ die 5 häufigsten Token gewesen. „Viez“ hingegen wäre von solchen Stopwords auf Platz 9 verdrängt worden.
Danach wurde jedes Wort auf seine Grundform, also die Form, unter der man das Wort im Wörterbuch findet, reduziert. Für diese Analyse ist nicht von Bedeutung, ob im Text „trinkt“, „trank“ oder „hat getrunken“ steht; all diese Formen wurden deshalb zu der Stammform „trinken“ gezählt. Der Fokus lag lediglich darauf, ob ein Begriff vorkommt. Diese Reduktion auf die Stammform nennt man auch Lemmatisierung. An dieser Stelle wurde für jedes Wort auch gleichzeitig automatisch die Wortart bestimmt. Bei weniger bekannten Wörtern kann es an dieser Stelle zu Fehlern kommen.
Nachdem der Text eingelesen und die genannten Schritte (Tokenisierung, Lemmatisierung etc.) mithilfe der Python-Programmbibliothek spaCy durchgeführt wurden, hat das Skript für jedes Wort seine relative Häufigkeit berechnet. Dies wurde für jeden Text im Korpus wiederholt und anschließend der Mittelwert der relativen Häufigkeiten bestimmt.
Aus den berechneten Werten wurden schließlich mit der Programmbibliothek WordCloud for Python insgesamt 5 Schlagwortwolken erstellt. Zunächst für alle Wörter in der Form eines Apfels. Die restlichen 4 Schlagwortwolken sind wortartspezifisch und formen jeweils einen Buchstaben des Wortes Viez: das V enthält Nomen, das I Adverbien, das E Verben und das Z Adjektive.

Zitatgenerator – häppchenweise Lyrik

Um Viezliebhaber*innen die sprachliche Vielfalt rund um den Viez näherzubringen, wurde der Zitatgenerator VieZitat eingerichtet, der auf Klick Passagen aus Dialektgedichten und Sprichworten aus der Region präsentiert. Die mundartliche Dichtung hat im Weinbaugebiet Mosel eine reiche Tradition, die auf diese Weise ins Rampenlicht gerückt werden soll. So ist auch das erste schriftliche Zeugnis des Wortes Viez in Philipp Lavens aus dem Jahr 1834 stammenden Mundartgedicht Et Lied vom Viez zu finden, das auch als zentrale Quelle für den Zitatgenerator dient.
Da der moselfränkische Dialekt für viele Nicht-Trierer*innen eine Verständnisbarriere darstellt, wird für mundartliche Zitate auch eine standarddeutsche Übersetzung angeboten.
Aus einigen dieser Zitate ist auch abzulesen, dass Viez, damals wie heute, die preisgünstigere Alternative zu Wein ist – und dank seines geringeren Alkoholgehaltes wohl auch die gesündere.