FAIRe Daten in den Literaturwissenschaften? Das Beispiel „Mining and Modeling Text“ und der französische Roman des 18. Jahrhunderts

Julia Röttgermann und Christof Schöch

What is FAIR DATA?
What is FAIR DATA? Quelle: Ligue des Bibliothèques Européennes de Recherche, CC-BY

Gemäß der Fair Data Principles sollen Forschungsdaten “Findable, Accessible, Interoperable, and Re-usable“, also auffindbar, zugänglich, interoperabel und nachnutzbar sein. In der vorliegenden Blogserie zu FAIR-Prinzipien im Kontext romanistischer Projekte wurden bereits die Bedeutung von Repositorien und FAIR data im Kontext der Lexikographie diskutiert.

Im Projekt “Mining and Modeling Text” (2019–2022) des Trier Center for Digital Humanities ist ein Team aus der Computerlinguistik, der Romanistik, der Informatik und der Rechtswissenschaft dabei, ein mehrgliedriges Informationsangebot aufzubauen. Die Informationen speisen sich aus drei Quellen: Primärtexte (französische Romane der Zeit 1750-1800), Sekundärliteratur (relevante literaturhistorische Werke) und relevante bibliographische Daten.

Geleitet von der Idee von Linked Open Data werden die Romane in TEI-konformes XML gewandelt und mit Normdaten wie Wikidata verknüpft. Die Vision des Forschungsprojekts ist es, literaturhistorisch relevante Informationen maschinell zu extrahieren und so in Form von einfachen Aussagen zu modellieren, dass sie im Sinne des Semantic Web abfragbar (via SPARQL) zur Verfügung stehen.

Doch sind die bisher erhobenen Forschungsdaten den FAIR-Prinzipien entsprechend gut zugänglich, umfänglich erläutert, mit entsprechenden Lizenzen versehen und stehen sie nachnutzbar aufbereitet für die Forschungscommunity zur Verfügung?

„FAIRe Daten in den Literaturwissenschaften? Das Beispiel „Mining and Modeling Text“ und der französische Roman des 18. Jahrhunderts“ weiterlesen

Forschungsdaten in Repositorien veröffentlichen

Nanette Rißler-Pipka

Repositorium“ ist zunächst ein eher technischer Begriff aus dem Bereich der Forschungsdateninfrastruktur, der zur Beschreibung der nachhaltigen Verwaltung und Speicherung von Daten verwendet wird. Was Forschungsdaten sein können und warum wir diese langfristig und nachhaltig sichern sollten, dazu hat die AG Digitale Romanistik bereits 2014 mit einer Umfrage zu diesem Thema und 2017 mit einem Positionspapier zu „Open Access und Forschungsdaten in der Romanistik“ informiert. Außerdem hat der FID Romanistik 2018 ein Papier zum „Forschungsdatenmanagement in der Romanistik“ veröffentlicht, das von der AG Digitale Romanistik unterstützt wird. Seitdem sind die Möglichkeiten zur Veröffentlichung von Forschungsdaten schneller gewachsen als die Anzahl der in der Romanistik neu entstandenen und publizierten Forschungsdaten selbst – so zumindest der Eindruck, wenn man in die bisher via romanistik.de gemeldeten Ressourcen schaut. Kürzliche Bemühungen der CLiGS-Forschergruppe (mit der Veröffentlichung einer text-box und der COST Action Distant Reading deuten aber eine Veränderung des Trends an. Dagegen zeigt das Verzeichnis romanistischer Forschungsdaten des FID Romanistik allein zu den Internet-Ressourcen eine fast unüberschaubare Vielfalt, die wiederum zusätzliche Katalogisierung oder Verschlagwortung erfordert, wie hier am Beispiel der Sortierung nach Sprachraum, etc. ersichtlich.

„Forschungsdaten in Repositorien veröffentlichen“ weiterlesen

Der digitale Werkzeugkasten – Tools in der Datenbank des FID Romanistik

Titelbild: Digitale Werkzeuge

Die große Vielfalt an Forschungsdaten in den textbasierten Geisteswissenschaften rührt nicht zuletzt von der Vielfalt an neueren und bereits etablierten digitalen Methoden – wie beispielsweise Topic Modeling oder Kontextanalysen in Korpora –, mit denen diese Daten erstellt, für die Forschungsfrage zurechtgebogen und untersucht werden können. Wer in vertrauter Zusammenarbeit mit seinem Computer herausfinden will, wie sich inhaltliche Schwerpunkte einer großen Anzahl Texte erahnen lassen oder in welcher syntagmatischer Nachbarschaft ein bestimmtes Wort typischerweise auftritt, kann sich einer großen Anzahl an Programmen erfreuen, die für diese Zwecke als Analyseinstrumente in Betracht kommen. „Der digitale Werkzeugkasten – Tools in der Datenbank des FID Romanistik“ weiterlesen

Versteckte Forschungsleistungen sichtbar machen

Wortwolke Forschungsdaten

 

Was passiert eigentlich mit den Produkten, die während des wissenschaftlichen Arbeitens entstehen, aber nicht als Ergebnis in die Publikation einfließen? Das mühsam zusammengestellte Korpus französischer Dichtung des 16. Jahrhunderts, die ausführliche Bibliographie zur Dante-Rezeption im 18. und 19. Jahrhundert, das langwierig linguistisch annotierte Korpus zum Präpositionsgebrauch im Gegenwartsspanischen oder das sorgfältig vorbereitete Interview mit einem Autor werden selten im Anhang der Publikation mitveröffentlicht. Diese vorbereitenden Arbeiten, auf denen die eigentlichen wissenschaftlichen Untersuchungen beruhen, erhalten meist wenig bis gar keine Aufmerksamkeit. Dabei können sie in ihrem Wert durchaus dem einer wissenschaftlichen Publikation gleichkommen.

„Versteckte Forschungsleistungen sichtbar machen“ weiterlesen