Jan Rohden, José Calvo Tello
Gedruckte und digitale literarische Texte als Gegenstand der Literaturwissenschaft
Im Zentrum der Literaturwissenschaft, unter anderem in der Romanistik, steht seit jeher die Untersuchung literarischer Texte. Häufig liegen diese Texte, insbesondere die älteren, ausschließlich in Papierform vor. Veröffentlicht werden sie in der Regel als verlaglich herausgegebene Printmedien, bevor Buchhandel und Bibliotheken sie dann den einzelnen Nutzerinnen und Nutzern verfügbar machen.
Die daraus resultierende Vertriebsstruktur schuf über viele Jahrzehnte weltweite Rahmenbedingungen für die Verbreitung von Literatur sowohl unter wissenschaftlichen als auch unter allgemeingesellschaftlich interessierten Leserinnen und Lesern. Jene Vertriebsstruktur leistet darüber hinaus auch einen Beitrag zu der Auffindbarkeit und Zugänglichkeit gedruckter literarischer Texte. Schließlich werden verlaglich publizierte Texte spätestens seit den 1970er-Jahren beispielsweise mit einer einheitlichen und international gültigen Identifikationsnummer (ISBN) versehen, mit deren Hilfe das betreffende Printmedium gezielt identifiziert werden kann. Bibliotheken nehmen die veröffentlichten Texte in ihren Bestand auf, verzeichnen sie gemäß einschlägiger Richtlinien in standardisierter Form in ihren Katalogen und sorgen auf diese Weise dafür, dass auch nicht mehr im Handel erhältliche oder historische Texte für Leserinnen und Leser auffind- sowie nutzbar bleiben.
Dieses Zusammenspiel von Publikationsmarkt und Bibliotheken bildet seit Jahrzehnten einen wichtigen Baustein für die Verbreitung von Literatur in Europa und darüber hinaus. Nichtsdestotrotz weist es einige Schwächen auf, die seit einigen Jahren immer deutlicher zum Vorschein kommen:
- So können Krisen oder wirtschaftliche Verwerfungen Auswirkungen auf Publikationsmarkt und Bibliotheken haben, die die Verfügbarkeit von gedruckten Verlagspublikationen einschränken (man denke etwa an die Schließung von Bibliotheken und Buchhandlungen im Zuge der COVID-19-Krise).
- Im Zuge der Digitalisierung entstehen ferner immer mehr rein elektronische literarische Texte, zu denen teilweise kein gedrucktes Pendant existiert. Da solche Werke die Veröffentlichungsabläufe gedruckter Verlagspublikationen nicht durchlaufen, greifen auch die einschlägigen Mechanismen von Publikationsmarkt und Bibliotheken zur Herstellung von Auffindbarkeit und Zugänglichkeit nicht.
Eine schlichte Übertragung der auf Printliteratur ausgerichteten Verfahren zur Bereitstellung und Sicherung der Verfügbarkeit auf digitale Literatur ist aufgrund der besonderen medialen Eigenschaften digitaler Texte (Sahle 2013) allerdings weder möglich, noch zielführend. Schließlich stellt die spezifische Form digitaler Texte einerseits besondere Anforderungen, bietet andererseits jedoch auch zusätzliche Nutzungsmöglichkeiten, beispielsweise im Hinblick auf Vervielfältigung oder computergestützte Analysemethoden.
FAIR-Prinzipien und ihre Anwendung in der CLiGS-Textbox
Um die langfristige Identifizierbarkeit, Erreichbarkeit und Nutzbarkeit von digitalen Texten sicherstellen zu können, bedarf es anderer Herangehensweisen. Einen geeigneten Ansatz hierfür stellen die FAIR-Prinzipien dar, die auf vier wesentliche Merkmale digitaler Ressourcen abzielen: Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit (Wilkinson et al. 2016). Diese Kriterien wurden zwar in erster Linie für die Lebenswissenschaften konzipiert, allerdings auch in anderen Disziplinen rezipiert.
Im Folgenden wird am Beispiel der Erfahrungen der Nachwuchsgruppe CLiGS bei der Erstellung und Veröffentlichung des Korpus „textbox“ (Repository in GitHub oder Artikel zu den Korpora) reflektiert und illustriert, durch welche konkreten Entscheidungen mit Blick auf die Textsammlung die FAIR-Prinzipien erfüllt werden, und in welchen Bereichen diesbezüglich noch Verbesserungspotenzial besteht:
Identifikation, Archivierung und Suchbarkeit
Da die derzeitigen Verfahren am Buchmarkt und in Bibliotheken die Verfügbarkeit elektronischer Texte nicht auf breiter Ebene garantieren können, sollten digitale Texte nachhaltig gespeichert werden. Zu diesem Zweck sollten geeignete technische Systeme eingesetzt werden, insbesondere einschlägige Repositorien oder digitale Forschungsinfrastrukturen. Die Dienste TextGridRep, DARIAH-DE Repository und Zenodo bieten in dieser Hinsicht fachübergreifende oder fachspezifische Optionen für die Digital Humanities Community.
Es wäre erstrebenswert, die umfassend beschriebenen Daten nicht nur durch eine DOI abrufbar zu machen, sondern auch verschiedene Suchoptionen anzubieten. Diese sollten den Nutzerinnen und Nutzern sowohl gezielte spezifische Suchen ermöglichen als auch den Benutzenden andere digitale Datensätze vorschlagen und sie auf diese Weise zum Stöbern anregen. Zu diesem Zweck sollten Repositorien alle ihre Daten und Metadaten indexieren. Damit können die Suchoptionen auf Daten und Metadaten zugreifen und die Rechercheoptionen werden erweitert. Momentan werden die Daten von den oben genannten Repositorien zwar gespeichert, aber nicht komplett indexiert.
Bisherige Werkzeuge zur Identifikation von Literatur, wie etwa die ISBN-Nummer, sind auf digitale Texte nicht oder nur bedingt anwendbar. Aus diesem Grund sollte stattdessen auf persistente Identifikatoren zurückgegriffen werden, beispielsweise DOIs (Digital Object Identifier). Repositorien, wie beispielsweise das TextGridRep, das DARIAH-DE Repository oder Zenodo bieten DOIs oder andere persistente Identifikatoren (wie Handles), entweder pro Dokument oder für das komplette Korpus.
Metadaten und Format
Um das volle Potential digitaler Texte sowie der dazugehörigen Metadaten zu entfalten und eine möglichst breite und langfristige Nutzung zu fördern, sollten bei der Erstellung von Texten oder Metadaten standardisierte Formate eingesetzt werden. Dafür sind frei verfügbare, offene Daten- (TXT, XML) und Metadatenformate (TEI Header, aber auch Dublin Core, etc.) zu verwenden.
Eine noch wichtigere Rolle als bisher spielen die Metadaten. Diese sollten auf offene, fachspezifische und an sich FAIRe Formate oder Vokabulare zurückgreifen. Die CLiGS Nachwuchsgruppe entschied sich für Text Encoding Initiative (TEI) für die Auszeichnung sowohl der Texte als auch der Metadaten. TEI ist ein Format, das in den Geisteswissenschaften entstanden ist, durch die Community stetig weiterentwickelt wird und sich einer offenen und grundlegenden Markup-Sprache bedient: XML.
Die Daten (z.B. Texte) und ihre Beschreibung (die Metadaten) sollen eindeutig aufeinander verweisen. Die FAIR-Prinzipien erfordern, dass die Metadaten gleichwohl auch dann weiter zur Verfügung stehen sollen, wenn die dazugehörigen Daten nicht mehr vorliegen. Ein Vorteil von TEI als Format ist, dass sowohl Daten als auch Metadaten zwar getrennt, aber in dem gleichen Dokument gespeichert werden, sodass beide Aspekte stetig verbunden bleiben.
Gemäß den FAIR-Prinzipien sollen die Datensätze Provenienzinformationen enthalten. Das ist besonders wichtig für digitale literarische Werke, weil Bibliotheken nicht verlaglich veröffentlichte digitale Texte nur selten in ihrem Bestand verzeichnen. In TEI können diese Information unter dem Element sourceDesc abgelegt werden. In dem Fall von Textbox wurden drei verschiedene Arten von Quellen pro Text eingetragen: 1) die digitale Quelle; 2) die gedruckte Ausgabe, die digitalisiert wurde; und 3) Informationen zu der ersten Veröffentlichung (besonders wichtig für das Veröffentlichungsjahr).
Ein weiterer wichtiger Aspekt von Metadaten ist ihre Verlinkung durch verschiedene Arten von Referenzen auf andere Normdatensätze und Schemata. Zu diesem Zweck ist die Verwendung von Formaten wie TEI nur ein erster Schritt. Zur Beschreibung einiger Elemente der Textbox wurde auf fachübergreifende Lösungen zurückgegriffen. Zum Beispiel wurde die Information über den Erzähler des Romans als item in einem keywords– Element erfasst, das durch ein weiteres Attribut type spezifiziert wurde. Allerdings entstammen die dazugehörigen Werte (wie heterodiegetic, autodiegetic, usw.) keinem kontrollierten Vokabular oder Standard-Ontologie. Nichtsdestotrotz wurden für die Identifikation von Autoren und Werken Normdaten, wie etwa Virtual International Authority File (VIAF) und Identifikatoren von Nationalbibliotheken (etwa die Biblioteca Nacional de España ID) verwendet.
Lizenzierung und rechtliche Aspekte
Viele Unsicherheiten im Bereich digitaler literarischer Texte beziehen sich auf rechtliche Aspekte der Nutzung. Deshalb sollten elektronische Texte stets mit einer leicht zu erkennenden und verständlichen Nutzungslizenz versehen werden. In den letzten Jahren haben sich die Creative Commons Lizenzen in dieser Hinsicht bewährt, da sie auf internationaler Ebene Lizenzmodelle mit eindeutigen Nutzungsregeln in standardisierter und transparenter Form bereitstellen. Für die CliGS-Textbox wurde eine Kombination aus Public Domain (für den Text) und Creative Commons Attribution (für die Metadaten und das Mark-up) gewählt.
Darüber hinaus deuten die FAIR-Prinzipien darauf hin, dass es standardisierte und rechtlich fundierte Verfahren für Fälle geben sollte, in denen Daten nicht ohne weiteres veröffentlicht werden dürfen. Dieser Punkt ist besonders kritisch für die Geisteswissenschaften, da andere Institutionen (insbesondere Verlage und Erben, aber auch Museen und Archive) Rechte an den Daten halten können. Für den Fall der Literatur bleiben die Texte in der Regel urheberrechtlich geschützt bis 70 Jahre nach dem Tod des Autors. Derzeit ist die übliche Praxis, rechtlich geschützte Texte nicht zu veröffentlichen. Einige Projekte entscheiden sich jedoch dafür, aus den Texten extrahierte Daten (wie die Häufigkeit gewisser sprachlicher Einheiten pro Text) oder Metadaten online zu stellen. Das ist auch die Entscheidung, die im Rahmen des CLiGS-Projekts getroffen wurde. Allerdings benötigen Forschende für solche Lösungen fachlich kompetente Ansprechpartnerinnen bzw. Ansprechpartner und klare Regeln diesbezüglich. Des Weiteren sollten auch technische Möglichkeiten geschaffen werden, geschützte Daten in einer Weise zu speichern, die anderen Forschenden einen Zugang dazu ermöglicht.