Qualitative Metadaten – Hilfe und Herausforderung zugleich

Ursula Winter

Grafik Metadaten
Erstellt auf wordart.com

Vor dem Hintergrund der FAIR-Prinzipien stellt sich die Frage nach der Bedeutung von Meta­daten eigentlich gar nicht, leisten sie doch zu zwei der vier in dem Akronym einprägsam zu­sammen­gefassten Kategorien einen wesentlichen Beitrag, indem sie eine Forschungsdaten­publi­kation besser auffindbar (findable) und die Zusammenführung von Datensatz­nachweisen (interoperable) in institutionen-, länder- oder disziplinübergreifenden Katalogen möglich machen. Soweit die Theorie. Doch wie verhält es sich in der Praxis? Erhalten Metadaten immer die Aufmerk­samkeit, die sie verdient haben, oder wirken sie im Schatten der Forschungs­leistung und der dafür erforderlichen zeitintensiven Datenerhebung, -aufbereitung und -auswertung eher wie ein notwendiges Übel, eine lästige Pflicht, die es auf dem Weg zur Daten­publikation eben schnell zu erfüllen gilt, um Forschungsförderer und Infrastruktureinrich­tun­gen zufriedenzustellen? Bieten die Systeme und Standards überhaupt die Möglichkeit, Forschungsdaten adäquat – beispielsweise unter Rückgriff auf Normdaten oder mehrsprachig – zu beschreiben? Eine ehrliche Beantwortung dieser Fragen zeigt auf, wo Verbesserungspoten­zial besteht. Ziel dieses Beitrags ist es, ebenso ein Bewusstsein für die Herausforderungen bei der Erschließung von Forschungsdaten zu wecken wie für den hilfreichen Nutzen, der sich aus dem Bemühen um qualitativ hochwertige Metadaten ergibt. Mit dem Begriff „Metadaten“ sind in diesem Beitrag die bei der Publikation von Forschungsdaten hinzugefügten, das Forschungsprojekt sowie die hinterlegten Datensätze beschreibenden Informationen gemeint. Im Rahmen der Aufbereitung der Rohdaten zur Beantwortung der Forschungsfrage ergänzte strukturierende und beschreibende Elemente wie Annotationen oder Markup-Elemente (bspw. der TEI-Header, XML-Tags usw.) werden hingegen als Bestandteil der von den Metadaten unterschiedenen Forschungsdaten betrachtet.

Während wissenschaftliche Publikationen in Bibliotheken von Fachpersonal nach strengen Erfassungsregeln katalogisiert werden, hat sich bei der Veröffentlichung von Forschungsdaten bisher noch kein vergleichbares Vorgehen etabliert. Hierbei obliegt es meist den Wissen­schaftlerinnen und Wissenschaftlern selbst, die Metadaten zu vergeben, welche – je nach Repositorium – im Anschluss allenfalls noch eine in der Regel überwiegend formale Über­prüfung durchlaufen. Dabei ist die Metadatenvergabe für Forschungsdaten alles andere als trivial: Elemente wie der Titel, die zur bibliographischen Beschreibung von Textpublikationen standardmäßig heran­gezogen werden, liegen bei Forschungsdaten häufig noch nicht vor und müssen – gewissermaßen vergleichbar mit dem im Archivwesen bekannten Vorgehen – im Kontext der Metadatenvergabe erst gebildet werden. Außer den deskriptiven Informationen über die abgelegten Daten sollten auch strukturelle, technische und administrative Metadaten vergeben werden, die bspw. Informationen zum Aufbau der hinterlegten Dateien, zu Daten­formaten und rechtlichen Festlegungen im Hinblick auf den Datenschutz sowie die Nach­nutzung der Daten liefern. Zudem lassen sich nicht nur unterschiedliche Arten von Metadaten unterscheiden, sondern es spielen auch in Bezug auf die Datenqualität verschiedene Dimen­sio­nen eine Rolle, etwa eine sinnvolle Datenstruktur, vollständige, einheitliche, objektive und fehlerfreie Angaben in Pflichtfeldern, das Vorhan­densein aller nötigen Informationen, aber auch die Vermeidung unnötiger Redundanzen (vgl. Kesper et al. 2020).

Eine wichtige Grundvoraussetzung im Hinblick auf das Retrieval von Datenpublikationen und die Interoperabilität unterschied­licher Repositorien stellen daher Meta­datenstandards dar. Während für Objekte der materiellen Kultur wie Museums- oder Sammlungsstücke mit LIDO (Lightweight Information Describing Objects) ein spezialisiertes Metadatenschema entwickelt wurde, steht die weitere Standardisierung der Metadatenvergabe für Text- und Sprachdaten noch aus. Im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) ist zwar zu erwarten, dass das Konsortium Text+ derartige Prozesse vorantreibt. Entsprechende Bemühun­gen stellen zugleich aber auch eine Herausforderung für die mit einschlägigen Daten arbeitenden Fächer dar, weil es zur Entstehung eines praxistauglichen Metadatenschemas unabdingbar ist, dass sich die Vertreterinnen und Vertreter der einzelnen Disziplinen in den Prozess einbringen und ihre Anforderungen aus der Fachperspektive heraus klar benennen. Vielversprechend wäre dabei die Einigung auf ein modulares Datenschema, das nicht nur festlegt, welche Kernangaben generell verpflichtend sind, sondern auch die Entwicklung zusätzlicher Standardelemente-Sets für einzelne Teildisziplinen ermöglicht. Dies wäre beispielsweise bei dem im DARIAH-DE Repository genutzten Metadatenschema Dublin Core möglich, in das auch im Repositorium Zenodo vergebene Metadaten exportiert werden können.

Einrichtungen, die Repositorien betreiben, sind darüber hinaus gefordert, die Standardisie­rung der Metadaten durch die Einbindung von Normdaten, persistenten Identifikatoren und kontrollierten Vokabularen zu unterstützen. Dies betrifft einerseits die eindeutige Identifizie­rung am Forschungsprojekt beteiligter Personen, die durch Identifikatoren wie die GND-Nummer, ORCID (Open Researcher and Contributor ID), ISNI (International Standard Name Identifier) oder die in Frankreich zunehmend verwendete idHAL (Hyper Articles en Ligne) erfolgen kann. Andererseits ist der Rückgriff auf Normdaten bei der Vergabe von Schlag­wörtern essentiell, um die Auffindbarkeit und Interoperabilität der (Meta-)Datensätze zu verbessern (vgl. dazu auch die Empfehlungen im Leitfaden zur Archivierung von Forschungsdaten im DARIAH-DE Repository: Fachinformationsdienst Romanistik / von Vacano 2020). Für die Romanistik ist es von besonderer Bedeutung, Schlagwörter in meh­reren Sprachen nutzen zu können, was die Einbeziehung verschiedener nationaler Norm­datenvokabulare bzw. bereits bestehender Übersetzungen oder Mappings zwischen diesen voraussetzt. Auf diese Weise könnten Schlagwörter zukünftig in einer einzigen Sprache vergeben, aber in unterschiedlichen Sprachen angezeigt und gesucht werden. Vielversprechend erscheint in diesem Kontext das laufende Projekt GND-mul der Deutschen Nationalbibliothek, in dem an einer Ergänzung der Mappings zwischen den Schlagwort-Thesauri der deutschen und der französischen Nationalbibliothek sowie der Library of Congress um weitere Konkordanzen, unter anderem zum italienischen Nuovo Soggettario und zu den Encabezamientos de materia de la Biblioteca Nacional de España, gearbeitet wird. Auf europäischer Ebene ist darüber hinaus die Entwicklung eines in mehrere Sprachen übersetzten Vokabulars für die Geistes- und Sozialwissenschaften Bestandteil des Projektes TRIPLE (Transforming Research through Innovative Practices for Linked Interdisciplinary Exploration).

Die Erhöhung der Metadatenqualität bei der Publikation von Forschungsdaten ist somit für Infrastruktureinrichtungen, aber auch für die Forschenden selbst mit einem gewissen Auf­wand verbunden, der jedoch von beiden Seiten nicht gescheut werden sollte. Abgesehen von der größeren Transparenz der Forschung, die durch die Überprüfbarkeit und Reprodu­zier­­barkeit gewonnener Ergebnisse anhand der veröffentlichten Forschungsdaten entsteht, macht es die Vernetzung und Nachnutzung von Forschungs­daten außerdem möglich, zukünf­tig neue Fragestellungen beispielsweise komparatistischer Art in einem Umfang zu bearbei­ten, wie es bisher kaum leistbar war. Der für die Erhebung und Auswertung von Daten aufgewendeten Zeit käme in der Folge noch größerer Wert zu als bisher. Zu den Voraus­setzungen für derartige Nachnutzun­gen von Forschungsdaten zählen ihre Auffind­barkeit und Interoperabilität. Diesbezüg­lich sind die fachspezifische Weiterentwicklung und Nutzung von Metadaten­standards sowie die darauf aufbauende aus­führ­liche Beschreibung publizierter Datensätze durch Metadaten essen­tielle Hilfe­stel­lun­­gen, weshalb die in die Bemü­hun­­gen der Standardi­sierung von Metadaten und die Erstel­lung hinreichend detaillier­ter Datensatznachweise investierte Zeit keineswegs verlorene Zeit ist.

Quellen

Fachinformationsdienst Romanistik / Johannes von Vacano (2020): Archivierung von Forschungs­daten im DARIAH-DE Repository. Leitfaden für Romanist*innenhttps://s.unhb.de/FDRomD.

Kesper, Arno et al. (2020): Catalogue of Quality Problems in Data, Data Models and Data Transformationshttps://doi.org/10.5281/zenodo.3955500.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert