FAIRe Daten aus Gallica

Thomas Scharinger (Jena)

Gallica Gallica, die seit 1997 im Open Access zugängliche digitale Bibliothek der Bibliothèque nationale de France (BnF), umfasst inzwischen (Stand: Dezember 2021) mehr als 8.400.000 digitalisierte Dokumente: Katalogisiert sind neben rund 1.200.000 Büchern, 200.000 Handschriften und 5.300.000 Zeitschriften- und Zeitungsausgaben u.a. auch ca. 180.000 Karten, 1.600.000 Bilder sowie über 51.000 Tonaufnahmen.

Insbesondere aufgrund der Vielzahl an digitalisierten Texten ist die ursprünglich in viel kleineren Dimensionen als „bibliothèque virtuelle de l’honnête homme“ konzipierte Datenbank heute auch für die romanistische Sprach- und Literaturwissenschaft von nicht unerheblichem Interesse. Sie kann gewissermaßen als Repositorium (vgl. den Beitrag von Rißler-Pipka in diesem Blog) für Rohdaten angesehen werden, die als Grundlage für verschiedenste Studien dienen können, so dass sich die Frage stellt, wie FAIR die von Gallica zur Verfügung gestellten Daten eigentlich sind.

„FAIRe Daten aus Gallica“ weiterlesen

Qualitative Metadaten – Hilfe und Herausforderung zugleich

Ursula Winter

Grafik Metadaten
Erstellt auf wordart.com

Vor dem Hintergrund der FAIR-Prinzipien stellt sich die Frage nach der Bedeutung von Meta­daten eigentlich gar nicht, leisten sie doch zu zwei der vier in dem Akronym einprägsam zu­sammen­gefassten Kategorien einen wesentlichen Beitrag, indem sie eine Forschungsdaten­publi­kation besser auffindbar (findable) und die Zusammenführung von Datensatz­nachweisen (interoperable) in institutionen-, länder- oder disziplinübergreifenden Katalogen möglich machen. Soweit die Theorie. Doch wie verhält es sich in der Praxis? Erhalten Metadaten immer die Aufmerk­samkeit, die sie verdient haben, oder wirken sie im Schatten der Forschungs­leistung und der dafür erforderlichen zeitintensiven Datenerhebung, -aufbereitung und -auswertung eher wie ein notwendiges Übel, eine lästige Pflicht, die es auf dem Weg zur Daten­publikation eben schnell zu erfüllen gilt, um Forschungsförderer und Infrastruktureinrich­tun­gen zufriedenzustellen? Bieten die Systeme und Standards überhaupt die Möglichkeit, Forschungsdaten adäquat – beispielsweise unter Rückgriff auf Normdaten oder mehrsprachig – zu beschreiben? Eine ehrliche Beantwortung dieser Fragen zeigt auf, wo Verbesserungspoten­zial besteht. Ziel dieses Beitrags ist es, ebenso ein Bewusstsein für die Herausforderungen bei der Erschließung von Forschungsdaten zu wecken wie für den hilfreichen Nutzen, der sich aus dem Bemühen um qualitativ hochwertige Metadaten ergibt. Mit dem Begriff „Metadaten“ sind in diesem Beitrag die bei der Publikation von Forschungsdaten hinzugefügten, das Forschungsprojekt sowie die hinterlegten Datensätze beschreibenden Informationen gemeint. Im Rahmen der Aufbereitung der Rohdaten zur Beantwortung der Forschungsfrage ergänzte strukturierende und beschreibende Elemente wie Annotationen oder Markup-Elemente (bspw. der TEI-Header, XML-Tags usw.) werden hingegen als Bestandteil der von den Metadaten unterschiedenen Forschungsdaten betrachtet.
„Qualitative Metadaten – Hilfe und Herausforderung zugleich“ weiterlesen

Contra la retórica FAIR

Antonio Rojas Castro (Berlin-Brandenburgische Akademie der Wissenschaft)

La web es un canal que transmite flujos de información en forma de red conectando nodos, desafiando la geografía y haciendo las distancias inexistentes. Es también fluidez, proceso, falta de contexto y superabundancia. Los principios FAIR pretenden corregir esta situación para que los datos científicos no se pierdan en el maremágnum de información, sino que sean fáciles de encontrar, accesibles, interoperables y reutilizables. Parece como si las organizaciones (pienso en FORCE11, ALLEA o LIBER) que han alentado la diseminación de los principios FAIR trabajasen a contrapelo, luchando  contra algunos de los rasgos más característicos del medio digital y promoviendo una cultura científica más abierta y colaborativa.

Fuente: Europeana.

Es por ello que en los últimos tiempos me pregunto si hay algo más que retórica en los principios FAIR. ¿Son “realizables” en la práctica? En FAIR enough? Building Digital Humanities Resources in an Unequal World, intenté responder a estas preguntas teniendo en cuenta proyectos de cooperación Norte-Sur y llegué a una conclusión escéptica y muy pragmática. Los principios FAIR gustan a todo el mundo: sugieren una idea de justicia y equidad que nos interpela a todos y por eso como estrategia de branding son perfectos; pero no son fáciles de llevar a cabo, sobre todo en contextos en que la infraestructura tecnológica es deficiente, escasa o poco robusta. Por eso no debemos dejarnos cegar por sus destellos sino interrogarlos de forma crítica.
„Contra la retórica FAIR“ weiterlesen

FAIRe Daten in den Literaturwissenschaften? Das Beispiel „Mining and Modeling Text“ und der französische Roman des 18. Jahrhunderts

Julia Röttgermann und Christof Schöch

What is FAIR DATA?
What is FAIR DATA? Quelle: Ligue des Bibliothèques Européennes de Recherche, CC-BY

Gemäß der Fair Data Principles sollen Forschungsdaten “Findable, Accessible, Interoperable, and Re-usable“, also auffindbar, zugänglich, interoperabel und nachnutzbar sein. In der vorliegenden Blogserie zu FAIR-Prinzipien im Kontext romanistischer Projekte wurden bereits die Bedeutung von Repositorien und FAIR data im Kontext der Lexikographie diskutiert.

Im Projekt “Mining and Modeling Text” (2019–2022) des Trier Center for Digital Humanities ist ein Team aus der Computerlinguistik, der Romanistik, der Informatik und der Rechtswissenschaft dabei, ein mehrgliedriges Informationsangebot aufzubauen. Die Informationen speisen sich aus drei Quellen: Primärtexte (französische Romane der Zeit 1750-1800), Sekundärliteratur (relevante literaturhistorische Werke) und relevante bibliographische Daten.

Geleitet von der Idee von Linked Open Data werden die Romane in TEI-konformes XML gewandelt und mit Normdaten wie Wikidata verknüpft. Die Vision des Forschungsprojekts ist es, literaturhistorisch relevante Informationen maschinell zu extrahieren und so in Form von einfachen Aussagen zu modellieren, dass sie im Sinne des Semantic Web abfragbar (via SPARQL) zur Verfügung stehen.

Doch sind die bisher erhobenen Forschungsdaten den FAIR-Prinzipien entsprechend gut zugänglich, umfänglich erläutert, mit entsprechenden Lizenzen versehen und stehen sie nachnutzbar aufbereitet für die Forschungscommunity zur Verfügung?

„FAIRe Daten in den Literaturwissenschaften? Das Beispiel „Mining and Modeling Text“ und der französische Roman des 18. Jahrhunderts“ weiterlesen

Workshop zum Forschungsdatenmanagement: „Datensicherung im Forschungsprozess“

Online-Workshop zum Forschungsdatenmanagement in der Romanistik am 26. & 27. November 2020

Das Stichwort „Forschungsdatenmanagement“ drängt sich spätestens über die Anforderungen der Förderinstitutionen mit Schlagworten wie einem „Datenmanagementplan“ oder den ominösen „FAIR-Prinzipien“ in den Alltag der Wissenschaft. Auch die Romanistik bleibt nicht von der scheinbaren Überraschung verschont, neben den bewährten Ergebnissen nun auch Daten zu generieren bzw. generiert zu haben. Daten, auf die zudem Prädikate wie „nachhaltig“ zutreffen und die „auffindbar“ sein sollten, die nicht allein auftreten dürfen, sondern auf Begleitung angewiesen sind: Metadaten. Schließlich muss für diese Daten auch ein Platz gefunden werden, an dem sie sozusagen artgerecht den nächsten Abschnitt der Ewigkeit verbringen dürfen und dabei in weiteren Untersuchungen ihr Potenzial entfalten. Um diese relevanten, aber ganz und gar nicht bedrohlichen Aspekte des Umgangs mit Forschungsdaten zu erläutern und mit Beispielen aus der Praxis zu illustrieren, verstalten die AG Digitale Romanistik und der FID Romanistik nunmehr zum dritten Mal einen gemeinsamen Workshop zum Forschungsdatenmanagement in der Romanistik.

„Workshop zum Forschungsdatenmanagement: „Datensicherung im Forschungsprozess““ weiterlesen

Die FAIR-Prinzipien als Leitlinien literaturwissenschaftlicher Forschung

Jan Rohden, José Calvo Tello

Gedruckte und digitale literarische Texte als Gegenstand der Literaturwissenschaft

Im Zentrum der Literaturwissenschaft, unter anderem in der Romanistik, steht seit jeher die Untersuchung literarischer Texte. Häufig liegen diese Texte, insbesondere die älteren, ausschließlich in Papierform vor. Veröffentlicht werden sie in der Regel als verlaglich herausgegebene Printmedien, bevor Buchhandel und Bibliotheken sie dann den einzelnen Nutzerinnen und Nutzern verfügbar machen.

Die daraus resultierende Vertriebsstruktur schuf über viele Jahrzehnte weltweite Rahmenbedingungen für die Verbreitung von Literatur sowohl unter wissenschaftlichen als auch unter allgemeingesellschaftlich interessierten Leserinnen und Lesern. Jene Vertriebsstruktur leistet darüber hinaus auch einen Beitrag zu der Auffindbarkeit und Zugänglichkeit gedruckter literarischer Texte. Schließlich werden verlaglich publizierte Texte spätestens seit den 1970er-Jahren beispielsweise mit einer einheitlichen und international gültigen Identifikationsnummer (ISBN) versehen, mit deren Hilfe das betreffende Printmedium gezielt identifiziert werden kann. Bibliotheken nehmen die veröffentlichten Texte in ihren Bestand auf, verzeichnen sie gemäß einschlägiger Richtlinien in standardisierter Form in ihren Katalogen und sorgen auf diese Weise dafür, dass auch nicht mehr im Handel erhältliche oder historische Texte für Leserinnen und Leser auffind- sowie nutzbar bleiben.
„Die FAIR-Prinzipien als Leitlinien literaturwissenschaftlicher Forschung“ weiterlesen

Forschungsdaten in Repositorien veröffentlichen

Nanette Rißler-Pipka

Repositorium“ ist zunächst ein eher technischer Begriff aus dem Bereich der Forschungsdateninfrastruktur, der zur Beschreibung der nachhaltigen Verwaltung und Speicherung von Daten verwendet wird. Was Forschungsdaten sein können und warum wir diese langfristig und nachhaltig sichern sollten, dazu hat die AG Digitale Romanistik bereits 2014 mit einer Umfrage zu diesem Thema und 2017 mit einem Positionspapier zu „Open Access und Forschungsdaten in der Romanistik“ informiert. Außerdem hat der FID Romanistik 2018 ein Papier zum „Forschungsdatenmanagement in der Romanistik“ veröffentlicht, das von der AG Digitale Romanistik unterstützt wird. Seitdem sind die Möglichkeiten zur Veröffentlichung von Forschungsdaten schneller gewachsen als die Anzahl der in der Romanistik neu entstandenen und publizierten Forschungsdaten selbst – so zumindest der Eindruck, wenn man in die bisher via romanistik.de gemeldeten Ressourcen schaut. Kürzliche Bemühungen der CLiGS-Forschergruppe (mit der Veröffentlichung einer text-box und der COST Action Distant Reading deuten aber eine Veränderung des Trends an. Dagegen zeigt das Verzeichnis romanistischer Forschungsdaten des FID Romanistik allein zu den Internet-Ressourcen eine fast unüberschaubare Vielfalt, die wiederum zusätzliche Katalogisierung oder Verschlagwortung erfordert, wie hier am Beispiel der Sortierung nach Sprachraum, etc. ersichtlich.

„Forschungsdaten in Repositorien veröffentlichen“ weiterlesen

FAIRness: ein contrat social für die Wissenschaftskommunikation im Internet

Thomas Krefeld, Stephan Lücke

Forschung ist in ihrem Wesen kollaborativ: Denn Fortschritt gibt es nur auf der Grundlage des jeweils bereits verfügbaren Wissens. Im Hinblick auf die Kollaboration – die ja grundsätzlich in Kommunikation fundiert ist – haben sich nun in den letzten 15 Jahren die Rahmenbedingen vollkommen geändert: Es ist innerhalb weniger Jahre eine Gesellschaft entstanden, die explizit als Wissensgesellschaft bezeichnet wird, da sie im Privaten und im Öffentlichen die permanente und ubiquitäre Verfügbarkeit der digitalen Medien und damit einen praktisch unbegrenzten Zugang zum Wissen jeglicher Art voraussetzt.
„FAIRness: ein contrat social für die Wissenschaftskommunikation im Internet“ weiterlesen