Vor dem Hintergrund der FAIR-Prinzipien stellt sich die Frage nach der Bedeutung von Metadaten eigentlich gar nicht, leisten sie doch zu zwei der vier in dem Akronym einprägsam zusammengefassten Kategorien einen wesentlichen Beitrag, indem sie eine Forschungsdatenpublikation besser auffindbar (findable) und die Zusammenführung von Datensatznachweisen (interoperable) in institutionen-, länder- oder disziplinübergreifenden Katalogen möglich machen. Soweit die Theorie. Doch wie verhält es sich in der Praxis? Erhalten Metadaten immer die Aufmerksamkeit, die sie verdient haben, oder wirken sie im Schatten der Forschungsleistung und der dafür erforderlichen zeitintensiven Datenerhebung, -aufbereitung und -auswertung eher wie ein notwendiges Übel, eine lästige Pflicht, die es auf dem Weg zur Datenpublikation eben schnell zu erfüllen gilt, um Forschungsförderer und Infrastruktureinrichtungen zufriedenzustellen? Bieten die Systeme und Standards überhaupt die Möglichkeit, Forschungsdaten adäquat – beispielsweise unter Rückgriff auf Normdaten oder mehrsprachig – zu beschreiben? Eine ehrliche Beantwortung dieser Fragen zeigt auf, wo Verbesserungspotenzial besteht. Ziel dieses Beitrags ist es, ebenso ein Bewusstsein für die Herausforderungen bei der Erschließung von Forschungsdaten zu wecken wie für den hilfreichen Nutzen, der sich aus dem Bemühen um qualitativ hochwertige Metadaten ergibt. Mit dem Begriff „Metadaten“ sind in diesem Beitrag die bei der Publikation von Forschungsdaten hinzugefügten, das Forschungsprojekt sowie die hinterlegten Datensätze beschreibenden Informationen gemeint. Im Rahmen der Aufbereitung der Rohdaten zur Beantwortung der Forschungsfrage ergänzte strukturierende und beschreibende Elemente wie Annotationen oder Markup-Elemente (bspw. der TEI-Header, XML-Tags usw.) werden hingegen als Bestandteil der von den Metadaten unterschiedenen Forschungsdaten betrachtet.
Während wissenschaftliche Publikationen in Bibliotheken von Fachpersonal nach strengen Erfassungsregeln katalogisiert werden, hat sich bei der Veröffentlichung von Forschungsdaten bisher noch kein vergleichbares Vorgehen etabliert. Hierbei obliegt es meist den Wissenschaftlerinnen und Wissenschaftlern selbst, die Metadaten zu vergeben, welche – je nach Repositorium – im Anschluss allenfalls noch eine in der Regel überwiegend formale Überprüfung durchlaufen. Dabei ist die Metadatenvergabe für Forschungsdaten alles andere als trivial: Elemente wie der Titel, die zur bibliographischen Beschreibung von Textpublikationen standardmäßig herangezogen werden, liegen bei Forschungsdaten häufig noch nicht vor und müssen – gewissermaßen vergleichbar mit dem im Archivwesen bekannten Vorgehen – im Kontext der Metadatenvergabe erst gebildet werden. Außer den deskriptiven Informationen über die abgelegten Daten sollten auch strukturelle, technische und administrative Metadaten vergeben werden, die bspw. Informationen zum Aufbau der hinterlegten Dateien, zu Datenformaten und rechtlichen Festlegungen im Hinblick auf den Datenschutz sowie die Nachnutzung der Daten liefern. Zudem lassen sich nicht nur unterschiedliche Arten von Metadaten unterscheiden, sondern es spielen auch in Bezug auf die Datenqualität verschiedene Dimensionen eine Rolle, etwa eine sinnvolle Datenstruktur, vollständige, einheitliche, objektive und fehlerfreie Angaben in Pflichtfeldern, das Vorhandensein aller nötigen Informationen, aber auch die Vermeidung unnötiger Redundanzen (vgl. Kesper et al. 2020).
Eine wichtige Grundvoraussetzung im Hinblick auf das Retrieval von Datenpublikationen und die Interoperabilität unterschiedlicher Repositorien stellen daher Metadatenstandards dar. Während für Objekte der materiellen Kultur wie Museums- oder Sammlungsstücke mit LIDO (Lightweight Information Describing Objects) ein spezialisiertes Metadatenschema entwickelt wurde, steht die weitere Standardisierung der Metadatenvergabe für Text- und Sprachdaten noch aus. Im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) ist zwar zu erwarten, dass das Konsortium Text+ derartige Prozesse vorantreibt. Entsprechende Bemühungen stellen zugleich aber auch eine Herausforderung für die mit einschlägigen Daten arbeitenden Fächer dar, weil es zur Entstehung eines praxistauglichen Metadatenschemas unabdingbar ist, dass sich die Vertreterinnen und Vertreter der einzelnen Disziplinen in den Prozess einbringen und ihre Anforderungen aus der Fachperspektive heraus klar benennen. Vielversprechend wäre dabei die Einigung auf ein modulares Datenschema, das nicht nur festlegt, welche Kernangaben generell verpflichtend sind, sondern auch die Entwicklung zusätzlicher Standardelemente-Sets für einzelne Teildisziplinen ermöglicht. Dies wäre beispielsweise bei dem im DARIAH-DE Repository genutzten Metadatenschema Dublin Core möglich, in das auch im Repositorium Zenodo vergebene Metadaten exportiert werden können.
Einrichtungen, die Repositorien betreiben, sind darüber hinaus gefordert, die Standardisierung der Metadaten durch die Einbindung von Normdaten, persistenten Identifikatoren und kontrollierten Vokabularen zu unterstützen. Dies betrifft einerseits die eindeutige Identifizierung am Forschungsprojekt beteiligter Personen, die durch Identifikatoren wie die GND-Nummer, ORCID (Open Researcher and Contributor ID), ISNI (International Standard Name Identifier) oder die in Frankreich zunehmend verwendete idHAL (Hyper Articles en Ligne) erfolgen kann. Andererseits ist der Rückgriff auf Normdaten bei der Vergabe von Schlagwörtern essentiell, um die Auffindbarkeit und Interoperabilität der (Meta-)Datensätze zu verbessern (vgl. dazu auch die Empfehlungen im Leitfaden zur Archivierung von Forschungsdaten im DARIAH-DE Repository: Fachinformationsdienst Romanistik / von Vacano 2020). Für die Romanistik ist es von besonderer Bedeutung, Schlagwörter in mehreren Sprachen nutzen zu können, was die Einbeziehung verschiedener nationaler Normdatenvokabulare bzw. bereits bestehender Übersetzungen oder Mappings zwischen diesen voraussetzt. Auf diese Weise könnten Schlagwörter zukünftig in einer einzigen Sprache vergeben, aber in unterschiedlichen Sprachen angezeigt und gesucht werden. Vielversprechend erscheint in diesem Kontext das laufende Projekt GND-mul der Deutschen Nationalbibliothek, in dem an einer Ergänzung der Mappings zwischen den Schlagwort-Thesauri der deutschen und der französischen Nationalbibliothek sowie der Library of Congress um weitere Konkordanzen, unter anderem zum italienischen Nuovo Soggettario und zu den Encabezamientos de materia de la Biblioteca Nacional de España, gearbeitet wird. Auf europäischer Ebene ist darüber hinaus die Entwicklung eines in mehrere Sprachen übersetzten Vokabulars für die Geistes- und Sozialwissenschaften Bestandteil des Projektes TRIPLE (Transforming Research through Innovative Practices for Linked Interdisciplinary Exploration).
Die Erhöhung der Metadatenqualität bei der Publikation von Forschungsdaten ist somit für Infrastruktureinrichtungen, aber auch für die Forschenden selbst mit einem gewissen Aufwand verbunden, der jedoch von beiden Seiten nicht gescheut werden sollte. Abgesehen von der größeren Transparenz der Forschung, die durch die Überprüfbarkeit und Reproduzierbarkeit gewonnener Ergebnisse anhand der veröffentlichten Forschungsdaten entsteht, macht es die Vernetzung und Nachnutzung von Forschungsdaten außerdem möglich, zukünftig neue Fragestellungen beispielsweise komparatistischer Art in einem Umfang zu bearbeiten, wie es bisher kaum leistbar war. Der für die Erhebung und Auswertung von Daten aufgewendeten Zeit käme in der Folge noch größerer Wert zu als bisher. Zu den Voraussetzungen für derartige Nachnutzungen von Forschungsdaten zählen ihre Auffindbarkeit und Interoperabilität. Diesbezüglich sind die fachspezifische Weiterentwicklung und Nutzung von Metadatenstandards sowie die darauf aufbauende ausführliche Beschreibung publizierter Datensätze durch Metadaten essentielle Hilfestellungen, weshalb die in die Bemühungen der Standardisierung von Metadaten und die Erstellung hinreichend detaillierter Datensatznachweise investierte Zeit keineswegs verlorene Zeit ist.
Quellen
Fachinformationsdienst Romanistik / Johannes von Vacano (2020): Archivierung von Forschungsdaten im DARIAH-DE Repository. Leitfaden für Romanist*innen, https://s.unhb.de/FDRomD.
Kesper, Arno et al. (2020): Catalogue of Quality Problems in Data, Data Models and Data Transformations, https://doi.org/10.5281/zenodo.3955500.