ViezNetzwerk



ViezSprache


Bedienung (für Desktop)

Thema markieren/abwählen bei Klick auf Wort


Hat man sich einmal die Mühe gemacht, eine eigene digitale Textsammlung  zu erstellen, kann man darauf die unterschiedlichsten Analysen durchführen. Wie das ViezKorpus, eine Sammlung aus Texten rund um das Thema Viez, entstanden ist, kannst Du hier nachlesen.
Das ViezNetzwerk ist durch das Zusammenspiel von  InfraNodus, einer in JavaScript geschriebenen Open-Source-Software und 3d-force-graph, einer Webkomponente für die Darstellung von Graphen im dreidimensionalen Raum entstanden. (Webkomponenten ermöglichen die Erstellung wiederverwendbarer Elemente für Webseiten.)

Um die Visualisierung übersichtlicher zu gestalten (sowie aus praktischen Gründen), wurde das ViezKorpus für diese Analyse grob in folgende Themenbereiche aufgeteilt: Geschichte, Etymologie, Herstellung und Obstanbau, Porz, Erzählungen, Poesie und Sonstiges. Jeder dieser Bereiche bildet ein separates Netzwerk und wurde durch ein weiteres, von InfraNodus anhand der Suchergebnisse für „Viez” erstelltes, ergänzt.
Importiert man die zu untersuchenden Texte in InfraNodus, führt die Software zunächst hinter den Kulissen die üblichen Schritte der computergestützten Textverarbeitung durch: die Texte werden lemmatisiert, d.h. auf ihre Wörterbuchform reduziert, Satzzeichen und sog. Stoppwörter werden entfernt. Stoppwörter sind Wörter, die in einer Sprache zwar sehr häufig vorkommen, aber keine oder kaum Bedeutung in sich tragen. Im Deutschen sind das z. B. Artikel oder Präpositionen wie „an”, „in” oder „von”. Nach diesen Schritten liegen die Texte also als eine Reihe von Wörtern in ihrer Stammform vor. Aus dieser erstellt die Software dann einen gerichteten Graphen, in dem die Wörter die Knoten sind. Wenn sie gemeinsam vorkommen, sind sie durch Kanten miteinander verbunden. Bei diesem Schritt werden allerdings nicht nur direkt nebeneinander vorgefundene Wörter (sogenannte Bigramme), sondern jeweils 4 aufeinander folgende Begriffe (sog. 4-Gramme) berücksichtigt. 
An dieser Stelle wird auch die Gewichtung, die später die Linienstärke der Kanten in der Visualisierung bestimmt, berechnet. Je öfter und je dichter Wörter aufeinander folgen, umso dicker wird die Kante angezeigt. Knoten, die am häufigsten auf den kürzesten Pfaden zwischen zwei beliebigen, zufällig ausgewählten Knoten im Netzwerk erscheinen, werden als wichtige Begriffe identifiziert und hervorgehoben. Man kann auch erkennen, dass sich bei dem ViezKorpus – und somit auch im ViezNetzwerk – wirklich alles um Viez dreht.

Als nächstes werden mithilfe eines Algorithmus Gruppen von Knoten aufgespürt, die dichter miteinander verbunden sind als mit dem Rest des Netzwerks. Dabei handelt es sich um Gruppen von Wörtern, die dazu tendieren, im Text gemeinsam aufzutreten: sog. thematische Cluster bzw. Topics. Diese sind im ViezNetzwerk an ihrer Farbe erkennbar. (Achtung: Gleiche Farben in den unterschiedlichen Themen-Graphen haben keine Bedeutung.) Die bereits identifizierten Stichwörter dienen auch als Verbindungsglied zwischen diesen thematischen Clustern.  (InfraNodus bietet auch eine weitere Art, diese Themen zu bestimmen (also des Topic Modelings) und einige weitere Funktionen, allerdings aktuell (Stand: Februar 2022) nur für die englische Sprache.)
Einer der größten Vorteile, die man als (Geistes-)Wissenschaftler*in mit Programmierkenntnissen hat, ist, dass man nicht gezwungen ist, sich auf die Funktionalitäten existierender Softwarelösungen zu verlassen und auch die Möglichkeit hat, verschiedene Tools miteinander zu verbinden. Das Digital Viez-Team fand die so erstellte Visualisierung nicht intuitiv genug und hat sich mehr Kontrolle über die Darstellung gewünscht. Deshalb wurden die Daten aus InfraNodus mit einem Skript in der Programmiersprache Python in das benötigte Format umgewandelt und schließlich mit 3d-force-graph die gewünschte Visualisierung erstellt.