FAIRe Daten aus Gallica

Thomas Scharinger (Jena)

Gallica Gallica, die seit 1997 im Open Access zugängliche digitale Bibliothek der Bibliothèque nationale de France (BnF), umfasst inzwischen (Stand: Dezember 2021) mehr als 8.400.000 digitalisierte Dokumente: Katalogisiert sind neben rund 1.200.000 Büchern, 200.000 Handschriften und 5.300.000 Zeitschriften- und Zeitungsausgaben u.a. auch ca. 180.000 Karten, 1.600.000 Bilder sowie über 51.000 Tonaufnahmen.

Insbesondere aufgrund der Vielzahl an digitalisierten Texten ist die ursprünglich in viel kleineren Dimensionen als „bibliothèque virtuelle de l’honnête homme“ konzipierte Datenbank heute auch für die romanistische Sprach- und Literaturwissenschaft von nicht unerheblichem Interesse. Sie kann gewissermaßen als Repositorium (vgl. den Beitrag von Rißler-Pipka in diesem Blog) für Rohdaten angesehen werden, die als Grundlage für verschiedenste Studien dienen können, so dass sich die Frage stellt, wie FAIR die von Gallica zur Verfügung gestellten Daten eigentlich sind.

Im folgenden Beitrag soll zunächst diskutiert werden, wie es um die Findability, Accessibility, Interoperability und Reusability der digitalisierten Texte steht, bevor anhand eines konkreten Anwendungsbeispiels gezeigt wird, dass die Datenbank dank gewisser Metadaten und miteinander kombinierbarer Suchoptionen schon jetzt auch als Korpus für sprachwissenschaftliche Untersuchungen – etwa für die historische Wortforschung – genutzt werden kann.

Wie FAIR ist Gallica?

Findable: Da alle Digitalisate seit 2006 mit einem unique persistent identifier (ARK) versehen werden, sind die langfristige Archivierung sowie die Auffindbarkeit sichergestellt. Ist man auf der Suche nach einem ganz bestimmten Werk, kann es oft schon ausreichend sein, mithilfe einer Suchmaschine wie Google nach dem Titel zu suchen, um zügig auf das entsprechende Werk in Gallica zu stoßen. Innerhalb von Gallica können aufgrund der vergebenen bibliographischen Metadaten (z.B. Titel, Autor, Erscheinungsdatum, Themenschwerpunkt, Dokumenttyp, Sprache, Format, Provenienz) mehr oder weniger präzise Suchanfragen gestartet werden, etwa um ein Korpus zu erstellen. Die Möglichkeiten sind hier aber (noch) stark begrenzt. Während es möglich ist, die Werke eines bestimmten Autors oder französische Zeitungsartikel aus einem bestimmten Zeitraum zu suchen, kann, da literarische Gattungen nicht gesondert als Metadatum erfasst sind, z.B. nicht gezielt nach Romanen aus einer bestimmten Epoche gesucht werden. Die Suche par thématiques ist nur bedingt von Nutzen, weil die Kategorien zu wenig differenziert sind (Histoire, Géographie, Éducation usw.).

Accessible: Frei zugänglich sind alle Dokumente des domaine public. Diese machen die große Mehrheit der Digitalisate aus und sind im Normalfall auch vollständig downloadbar (PDF oder ggf. TXT, JPEG nur für einzelne Seiten). Für die (Nach)Nutzung zu wissenschaftlichen Zwecken – also auch für wissenschaftliche Publikationen – fallen für gewöhnlich keine Kosten an, was z.B. für die Nutzung von historischen Karten, Frontispizen und Manuskripten von Bedeutung sein kann (vgl. Gallica: Conditions d’utilisation). Kosten entstehen allerdings bei kommerzieller Nutzung oder wenn man qualitativ hochwertige Reproduktionen anfordert. Texte, die noch nicht in den domaine public fallen, können in Gallica intra muros (in den Lesesälen der BnF) konsultiert werden.

Interoperable: Wie weiter oben bereits angemerkt, können alle digitalisierten Texte im PDF-Format heruntergeladen werden. Seit dem Jahr 2000 wird bei vielen Texten auch eine Volltexterkennung mittels OCR durchgeführt, so dass deren Inhalt durchsuchbar wird. Hilfreich ist, dass für jedes Dokument die OCR-Erkennungsrate angegeben wird (vgl. Gallica: L’océrisation). Texte, die mit optischer Zeichenerkennung bearbeitet (und ggf. sogar von Hand nachbearbeitet) worden sind, können auch als TXT-Datei heruntergeladen werden, was die Weiterverarbeitung erleichtert. Eine kurze Überprüfung – die Dokumente lassen sich danach filtern – zeigt allerdings, dass von den ca. 1.109.000 konsultierbaren digitalisierten Büchern (über 90.000 Bücher des Katalogs sind nicht frei zugänglich) bisher leider nur etwas mehr als 362.000 im mode texte verfügbar sind. Seit 2013 gibt es auch Bücher im EPUB-Format. Ihre Zahl ist bis jetzt aber überschaubar (ca. 3.860 frei zugängliche Titel).

Reusable: Was die Auffindbarkeit und Zugänglichkeit anbelangt, so können die dauerhaft gespeicherten Daten ohne Weiteres (nach)genutzt werden. Vorteilhaft ist, dass die Nutzungsoberfläche inzwischen auch in englischer, deutscher, italienischer und russischer Sprache vorliegt – Gallica enthält schließlich auch über 30.000 nichtfranzösische Texte, die für Nutzer, die des Französischen nicht mächtig sind, durchaus von Interesse sein können. Aufgrund der weiter oben bereits erwähnten fehlenden Feingranulierung bei den bibliographischen Angaben sowie des Umstands, dass ein Großteil der Texte noch nicht maschinenlesbar und daher insbesondere für quantitative Untersuchungen ungeeignet ist, wird Gallica vorerst aber wohl hauptsächlich nur als Depot für Rohdaten dienen, aus dem Texte entnommen, lesbar gemacht und für die jeweilige Studie mit entsprechenden Metadaten versehen werden. Die Daten können dann in einem eigenen Repositorium aufbewahrt werden (vgl. dazu den Beitrag von Röttgermann/Schöch in diesem Blog).

Zu illustrativen Zwecken können die Daten aus Gallica aber bereits jetzt unmittelbar (nach)genutzt werden. Interessiert man sich z.B. für einzelne Belege aus einem bestimmten Dokument, etwa für eine auffällige – vielleicht einmalige – Graphie in einem alten Druck oder einer Handschrift, so kann man in Online-Publikationen direkt auf die entsprechende Einzelseite des betreffenden Dokuments in Gallica verlinken, ohne den Text vorher aus der Datenbank extrahieren zu müssen (vgl. dazu z.B. Scharinger 2021a). Im Falle von Manuskripten und Drucken, die nicht im mode texte vorliegen, bleibt es allerdings dem Leser/der Leserin überlassen, die entsprechenden Belege auf der Seite dann auch zu finden. Eine besondere Auszeichnung der Belege – sie sind gelb unterlegt – lässt sich nur in Texten generieren, die maschinenlesbar sind. Dazu reicht es aus, auf das Ergebnis einer fingierten Suchanfrage (die betreffende Form im Dokument) zu verlinken (vgl. z.B. inganner in Cavalcabò 1609).

Gallica als Korpus für die historische Wortforschung

Einzelne Belege können bekanntlich auch in der historischen Wortforschung eine wichtige Rolle spielen, z.B. wenn es sich dabei um neue Erstbelege handelt. Da das Auffinden von Erstbelegen durch das Durchforsten digitalisierter Textbestände erheblich erleichtert wird – die Nutzung elektronischer Korpora ist aus dem Alltag der Etymolog:innen und Lexikograph:innen längst nicht mehr wegzudenken (vgl. dazu u.a. schon Schweickard 1997, 2002) –, stellt sich die Frage, ob Gallica auch für Studien zur Wortgeschichte – also nicht nur zu illustrativen Zwecken – genutzt werden kann.

Wenngleich bisher nur rund ein Drittel aller digitalisierten Bücher durch OCR maschinenlesbar gemacht worden ist und die Erkennungsrate v.a. bei älteren Drucken bisweilen weniger als 90% – in manchen Fällen sogar weniger als 80% – beträgt, kann Gallica für das Aufspüren neuer Erstbelege von Nutzen sein. Aufgrund der miteinander kombinierbaren Suchoptionen (Zeitraum, Sprache, Volltext) lässt sich ein Korpus erstellen, das dann nach Okkurrenzen bestimmter Lexeme durchsucht werden kann. Die Trefferliste lässt sich aufsteigend nach Erscheinungsjahr der Werke ordnen. Von Vorteil ist, dass in Gallica u.a. auch zahlreiche Gebrauchstexte vorhanden sind, so dass auch Studien zu Fachwortschätzen möglich sind (vgl. dazu z.B. den Beitrag von Scharinger 2021b zu neuen Erstbelegen für Italianismen im Französischen des 16. Jahrhunderts aus dem Bereich der Fechtkunst). In den großen Korpora wie z.B. Frantext überwiegen – obschon diese zunehmend auch fachsprachliche Texte berücksichtigen – hingegen immer noch literarische Texte im engeren Sinne (vgl. Frantext: Information).

Problematisch ist allerdings, dass bei Editionen älterer Texte offenbar nur das Erscheinungsjahr der Edition in die bibliographischen Metadaten aufgenommen wird, so dass z.B. Werke aus dem 16. Jh., die nur in Edition (z.B. aus dem 18. oder 19.  Jh.) vorliegen, in ein mithilfe der Suchoptionen von Gallica erstelltes Korpus von Texten des 16. Jh. nicht aufgenommen werden. Ein weiteres Problem besteht darin, dass selbst in Dokumenten, die insgesamt eine hohe OCR-Erkennungsrate aufweisen, einzelne Seiten schlecht lesbar sein können und interessante Belege daher manchmal nicht gefunden werden – die Erkennungsrate wird automatisch errechnet und immer nur für die gesamte Datei angegeben. Auch ist anders als in für sprachwissenschaftliche Untersuchungen konzipierten Korpora keine gezielte Suche nach variierenden Schreibungen oder gar flektierten Formen möglich – wenn diese bei einer Volltextsuche in Gallica berücksichtigt werden, dann ist dies eher Zufall.

Trotz dieser offenkundigen Schwächen kann Gallica im Rahmen etymologischer Studien als Ergänzung zu den klassischen elektronischen Korpora des Französischen brauchbar sein. Im Gegensatz zu Letzteren, deren Umfang aufgrund der aufwändigen Annotation der Daten zwangsläufig begrenzt ist, bietet Gallica eine große Menge an Texten der unterschiedlichsten Genres.

Die weiter oben erwähnte Möglichkeit, auf einzelne Belege in maschinenlesbaren Texten zu verlinken, birgt ein großes Potenzial für die FAIRe kollaborative Forschung. Informationen über neue Erstbelege können so nämlich schnell und unkompliziert an die großen romanistischen Wörterbücher weitergeleitet werden. Angesichts der zunehmenden Digitalisierungsbestrebungen der Wörterbücher – einige, wie z.B. der OIM, sind ohnehin ausschließlich online zugänglich – könnten entsprechende Links eines Tages vielleicht sogar in die jeweiligen Artikel aufgenommen werden.

Literatur

  • Cavalcabò, Girolamo (1609): Traité ou instruction pour tirer des armes, de l’excellent Scrimeur Hyeronime Calvacabo [sic], Avec un discours pour tirer de l’espee seule, fait par le deffunt Patenostrier de Rome. Traduit d’Italien en François par le Seigneur de Villamont […]. Rouen: Claude le Villain. (Link)
  • OIM = Heinz, Matthias/Serianni, Luca (Hrsg.): Osservatorio degli italianismi nel mondo. Florenz: Accademia della Crusca. (Link)
  • Scharinger, Thomas (2021a): „Migration, Perzeption und s impurum – Hapax-Belege in Henri Estiennes Deux Dialogues du nouveau langage François italianizé (1578)“, in: Linguistik grenzenlos: Berge, Meer, Käse und Salamander 2.0 – Linguistica senza confini: montagna, mare, formaggio e salamandra 2.0 (Korpus im Text 14), Stephan Lücke/Noemi Piredda/Sebastian Postlep/Elissa Pustka (Hrsg.). München: Universitätsbibliothek der LMU. (Link)
  • Scharinger, Thomas (2021b): „Italianismi nel lessico schermistico del francese cinquecentesco. Un’indagine sulla traduzione francese del Nobilissimo discorso intorno il schermo di spada di Girolamo Cavalcabò“, in: Actes du XXIXe Congrès International de Linguistique et de Philologie Romanes (Copenhague, 01.-06.07.2019) Section 5, Lene Schøsler/Juhani Härmä (Hrsg.). Straßburg: ÉLiPhi, 735-745.
  • Schweickard, Wolfgang (1997): „Neue Medien und historische Lexikographie: die Letteratura Italiana Zanichelli (LIZ) auf CD-Rom“, in: Italica et Romanica. Festschrift für Max Pfister zu seinem 65. Geburtstag, Günter Holtus/Johannes Kramer/Wolfgang Schweickard (Hrsg.). Tübingen: Niemeyer, Bd. 1, 443-451.
  • Schweickard, Wolfgang (2002): „Die Textgrundlagen der historischen Lexikographie“, in: Roma et Romania. Festschrift für Gerhard Ernst zum 65. Geburtstag, Sabine Heinemann/Gerald Bernhard/Dieter Kattenbusch (Hrsg.). Tübingen: Niemeyer, 321-333.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.