1.314.572 digitalisierte Zeitschriften – Frei und online zugänglich
Zeitungsartikel und ähnliche Quellen auswerten zu können, ist besonders für die historische Forschung von großem Interesse. Leider muss dafür in der Regel in Archiven der Mikrofilm-Bestand durchgesehen werden oder in regionalen Bibliotheken um Mithilfe gebeten werden. Besonders über Ländergrenzen hinweg kann dies zu sehr viel Aufwand führen. Die spanische Biblioteca Virtual de Prensa Histórica bietet dafür eine sehr praktische Lösung.
Die älteste erfasste Quelle stammt aus dem Jahr 1777 und die letzte aus 2018. Die Bestände sind aus allen autonomen Kommunen Spaniens zusammengefasst und werden laufend erweitert. Besonders ist, dass die insgesammt 8.569.537 Bilder auch per OCR auswertbar sind. So kann der gesammte Bestand mit einer Suchmaschine ausgelesen werden. Die wissenschaftliche Arbeit mit Quellen aus ca. 250 Jahren spanischer Zeitungen ist über das Internet und aus dem Home-Office durchführbar und dürfte so auch Forschung möglich machen, die ohne dieses Portal zumindest deutlich schwieriger wäre.
Zu der Sammlung gehört übrigens nicht nur Revistas culturales oder die Sammlung Prensa satírica sondern auch Prensa clandestina wie z.B. die berühmte Revista El mono azul (Wiki) oder viele Quellen aus Lateinamerika im Paket Colección Iberoamericana. Gefördert wird das Projekt vom Bildungs- und dem Kultusministerium der Spanischen Regierung.
Das ist wie viele andere Angebote im Bereich historischer Zeitungen und Zeitschriften aus dem spanischen Sprachraum sehr wertvoll – gewiss. Vorsicht jedoch bei Aussagen wie „dass die insgesammt 8.569.537 Bilder auch per OCR auswertbar sind. So kann der gesammte Bestand mit einer Suchmaschine ausgelesen werden.“ Alles ist per OCR auswertbar – über die Qualität des Ergebnisses sagt das jedoch wenig aus. Ganz sicher ist jedoch, dass kaum der gesamte Bestand und somit Millionen von Zeitungsartikeln nun wirklich durchsuchbar sind. Voraussetzung für OCR in Zeitungen ist die Artikelsegmentierung, die leider nach wie vor ein großes Problem darstellt. Voraussetzung von Durchsuchbarkeit sind Volltexte – sollten diese in Archiven vorhanden sein, müssten diese auch soweit es das Urheberrecht zu lässt vollumfänglich zur Verfügung gestellt und nicht nur durchsuchbar gemacht werden. Abgesehen davon, dass Zeitungen und Zeitschriften so viel mehr als nur durchsuchbare Texte sind. (https://dhd-ag-zz.github.io/ )
Das Portal ist dennoch sehr wertvoll. Es kommt auf den Anwendungsfall an:
Trotz solcher OCR-Qualität in Überschriften: „OnÉ ?^ PNTWÍÍ OvN roN U ^IINlSTRAtibNlPÜKra“ (aus: La Correspondencia de España : diario universal de noticias: Época SEGUNDA Año XIII Número 756 – 1860 octubre 5) kann zuverlässig eine Suche zu Schlagwörtern durchgeführt werden und einzelne Personen wie z.B. Picasso können im Volltext 19457 mal gefunden werden. Die Zeitungstexte stehen auch im txt aber auch XML oder METS und natürlich als Bild zum Download zur Verfügung – jedoch nur pro Einzelseite.
Danke für die fachliche Einschätzung und die gut begründete Relativierung der Aussage zur Durchsuchbarkeit des Zeitungsbestandes.