Forschungsdaten in Repositorien veröffentlichen

Nanette Rißler-Pipka

„Repositorium“ ist zunächst ein eher technischer Begriff aus dem Bereich der Forschungsdateninfrastruktur, der zur Beschreibung der nachhaltigen Verwaltung und Speicherung von Daten verwendet wird. Was Forschungsdaten sein können und warum wir diese langfristig und nachhaltig sichern sollten, dazu hat die AG Digitale Romanistik bereits 2014 mit einer Umfrage zu diesem Thema und 2017 mit einem Positionspapier zu „Open Access und Forschungsdaten in der Romanistik“ informiert. Außerdem hat der FID Romanistik 2018 ein Papier zum „Forschungsdatenmanagement in der Romanistik“ veröffentlicht, das von der AG Digitale Romanistik unterstützt wird. Seitdem sind die Möglichkeiten zur Veröffentlichung von Forschungsdaten schneller gewachsen als die Anzahl der in der Romanistik neu entstandenen und publizierten Forschungsdaten selbst – so zumindest der Eindruck, wenn man in die bisher via romanistik.de gemeldeten Ressourcen schaut. Kürzliche Bemühungen der CLiGS-Forschergruppe (mit der Veröffentlichung einer text-box und der COST Action Distant Reading deuten aber eine Veränderung des Trends an. Dagegen zeigt das Verzeichnis romanistischer Forschungsdaten des FID Romanistik allein zu den Internet-Ressourcen eine fast unüberschaubare Vielfalt, die wiederum zusätzliche Katalogisierung oder Verschlagwortung erfordert, wie hier am Beispiel der Sortierung nach Sprachraum, etc. ersichtlich.

Die Idee Forschungsdaten zu publizieren ist demnach nicht neu, aber immer noch befinden wir uns auf dem Weg zu diesem Ziel und stehen vor der Schwierigkeit den passenden Ort und Kontext für unsere romanistischen Forschungsdaten zu finden – seien es Textsammlungen, Primär- oder Sekundärquellen, unterschiedliche Medien und Datenformate. Auch andere Disziplinen beschäftigen sich mit ähnlichen Problemen und so entwickeln sich als Empfehlung zum Datenmanagement interdisziplinär die FAIR-Prinzipien, in denen Repositorien bei fast allen vier Buchstaben eine Rolle spielen:

F(indable): Entspricht ein Repositorium diesem Prinzip, erhält die eigene Sammlung von Forschungsdaten, die meist in einem Forschungskontext entstanden ist, bei der Veröffentlichung einen sog. Persistent Identifier (z. B. ein DOI – durchaus vergleichbar mit einer Buchsignatur). Anbieter von Repositorien sichern die langfristige Speicherung und DOI-Vergabe zu und machen den Datensatz (die Sammlung der veröffentlichten Forschungsdaten) auffindbar.

Wichtig ist hier, dass auch ein Bezug zum Kontext dieser Daten hergestellt werden kann. Das bedeutet aus Sicht des Datenmanagements einen Bezug zwischen einem Forschungsdatum und anderen Daten, die damit in direktem Zusammenhang stehen, herzustellen. Diese Information wird üblicherweise als Metadatum festgehalten. Warum sollte ich beispielsweise ausgerechnet den zweiten Band des Quijote von Cervantes und den Quijote Avellanedas kapitelweise im Volltextformat veröffentlichen? In diesem konkreten Fall möchte ich meine Forschungsdaten, mit denen ich stilometrische Analysen durchgeführt habe, nachträglich zu einer passenden Studie veröffentlichen. Damit mache ich zum einen die Ergebnisse in einem möglichen Rahmen reproduzierbar (sowohl die Software (die im Artikel referenziert wird) als auch die Daten) und zum anderen stelle ich die Ressource anderen zu eigenen Forschungszwecken zur Verfügung.

A(ccessible): Hier geht es darum, wie mir die gefundenen Forschungsdaten (Texte, Bilder, Video- oder Audiodaten) angezeigt und zur Verfügung gestellt werden: Sehe ich nur die Metadaten – wie in einem Bibliothekskatalog – oder wird mir daneben auch die Ressource vollständig gezeigt und zum Herunterladen zur Verfügung gestellt? Wenn ich mich für mehr als einen Text interessiere, besteht vielleicht die Möglichkeit über eine Regalfunktion (um personalisierte Textsammlungen anzulegen) mehrere Daten auszuwählen. Diese Funktionalität bietet z. B. das TextGrid Repository. Größere Datenanbieter wie Bibliotheken, Archive oder Forschungsdateninfrastrukturen bieten außerdem oft die Möglichkeit des Downloads vollständiger Sammlungen über eine Schnittstelle mit standardisierten Protokollen (REST-API oder OAI-PMH, Schnittstelle) an.

Für die Romanistik und die Geisteswissenschaften generell ist die Frage der Zugänglichkeit immer auch mit der Urheberrechtsproblematik verknüpft. Abseits der technischen Möglichkeiten des Zugangs, verhindern oft rechtliche Bestimmungen den freien und fairen Zugang. Speziell zu diesem Thema folgt in der Reihe FAIR-Blogposts der AG Digitale Romanistik ein eigener Beitrag.

I(nteroperable): Interoperabel verfügbar sind Forschungsdaten unter verschiedenen Gesichtspunkten. Dieser Teil der FAIR-Prinzipien ist vermutlich der schwierigste und für Menschen, die sich nicht mit Datenformaten und Standards beschäftigen, meist schwer in allen Facetten nachvollziehbar. Die Interoperabilität trägt aber wesentlich zum letzten Punkt der FAIR-Prinzipien bei: dem R wie Reusability, der Nachnutzbarkeit.

Denn wenn die Daten in einem Format gespeichert und publiziert werden, das nicht maschinenlesbar oder kaum interoperabel ist (zumeist als pdf-Datei), dann stehen sie auch nur eingeschränkt zur (digitalen) Nachnutzung bereit. So muss ich ein gescanntes Buch, egal ob es sich um ein Manuskript oder Typoskript handelt, zunächst einem OCR-Prozess unterziehen, um den geschriebenen Text weiter maschinell verarbeiten zu können. Ergebnis ist dann meist der Volltext im txt-Format, der jegliche Information zum Layout des Druckwerkes verloren hat und je nach OCR-Software unterschiedlich hohe Fehlerquoten aufweist. Es sei auf ein prinzipiell sehr erfreuliches Angebot der Spanischen Nationalbibliothek verwiesen, gemeinfreie Bücher nicht nur als Bild, sondern auch als Volltext zum Herunterladen anzubieten: hier sei als ein Beispiel auf Libro de Poemas von Federico García Lorca verwiesen. Das txt-Format ist zwar interoperabel im Sinne der Maschinenlesbarkeit, aber es enthält keine Metadaten oder zumindest keine als solche ausgezeichneten, d.h. in der maschinellen Weiterverarbeitung erkennbaren Metadaten. Ich habe also einen Text ohne zu wissen von wem er wann verfasst wurde und aus welcher Quelle und Edition er stammt (ganz abgesehen von der fehlenden Angabe zur OCR-Genauigkeit und Fehlerrate). Es gäbe daneben auch noch weitere interessante Aspekte, die ich gern als Metadaten speichern würde. Auch könnte man wie es Initiativen wie TEI (Text Encoding Initiative) vorschlagen, in einem Standard wie TEI-XML solche und andere Metadaten als „Annotation“, „Auszeichnung“ oder Datenanreicherung festhalten und entsprechend weitergeben. In Repositorien wie dem TextGrid Repository (das 2020 mit dem CoreTrustSeal zertifiziert wurde) werden Texte im TEI-XML Format angeboten und können auch darüber publiziert werden.

Spezielle Standards gibt es auch für Metadaten, die z. B. nur die bibliographischen Metadaten erfassen, wie sie in Bibliothekskatalogen angeboten werden (z. B. Dublin Core), aber auch Metadaten, die Layoutinformation von Druckwerken speichern (z.B. ALTO der Library of Congress).

R(eusability): Wenn für die Interoperabilität alles getan wurde, und die Daten auffindbar und zugreifbar sind, ergibt sich die Nachnutzbarkeit im Grunde von selbst. Doch: Was bedeutet eigentlich Nachnutzbarkeit im romanistischen Kontext? In einer analogen Welt sind seit Erfindung des Buches und natürlich noch viel mehr seit Erfindung des Buchdrucks Forschungsdaten als Publikationen nachnutzbar, indem sie von anderen Menschen auf der Welt gelesen werden können. Bücher waren schon immer auf Reisen (vgl. dazu das INF-Projekt des DFG-Sonderforschungsbereichs 980). Auch in diesen Fällen, mussten die Menschen die Sprache verstehen, in denen das Buch geschrieben wurde und auch die Codes, Icons und andere Nachrichten, die außerhalb von Sprache übermittelt wurden – oder aber einen Übersetzer engagieren. Die Geschichte der Weitergabe von verfälschtem oder eher revidiertem und neu interpretiertem Wissen ist ebenso alt.

Wenn in dem Kontext von FAIR von Forschungsdaten gesprochen wird, geht man davon aus, dass diese in digitaler Form vorliegen. Für die Romanistik müssen diese Forschungsdaten sicher nicht übersetzt werden, aber die Information darüber, in welcher Sprache sie geschrieben sind oder mit welchem Sprachraum sie sich befassen, sollte ebenso vorhanden sein wie eine Funktionalität im Repositorium, die Ressourcen nach der Sprachinformation filtert. Die Frage welche Sortierung Forschungsdaten in einem Repositorium haben sollte, muss anhand von kontrollierten Vokabularien innerhalb der Disziplin, also der Romanistik geführt werden. Macht es Sinn, romanistische Forschungsdaten zu bündeln oder ist es wahrscheinlicher, dass Forschende Daten disziplinenübergreifend suchen (z. B. Korpora der italienischen Literatur des 17. Jahrhunderts, aber auch englische und deutsche aus der gleichen Zeit oder Zeitungsartikel zu einem französischen Autor sprachunabhängig oder gezielt lexikalische Ressourcen zum Katalanischen). Diese Diskussion sollte innerhalb der Romanistik geführt werden, um zu bestimmen, wie und nach welchen Kategorien und Kriterien wir Forschungsdaten finden, nachnutzen und selbst publizieren möchten.

3 Gedanken zu „Forschungsdaten in Repositorien veröffentlichen“

Pingback: Forschungsdaten in romanistischen Repositorien veröffentlichen | Archivalia
Pingback: FAIRe Daten in den Literaturwissenschaften? Das Beispiel „Mining and Modeling Text“ und der französische Roman des 18. Jahrhunderts – Romanistik-Blog
Pingback: FAIRe Daten aus Gallica – Romanistik-Blog

Forschungsdaten in Repositorien veröffentlichen

Ähnliche Beiträge

3 Gedanken zu „Forschungsdaten in Repositorien veröffentlichen“

Schreibe einen Kommentar

Teilen auf:

Ähnliche Beiträge

3 Gedanken zu „Forschungsdaten in Repositorien veröffentlichen“

Schreibe einen Kommentar