Badische Landtagsprotokolle im Volltext durchsuchbar
Stefan Unser und Jana Madlen Schütte 23.7.2021 12.02 Uhr
DOI: https://doi.org/10.58019/vv6a-4g83
Seit Kurzem sind über 600 Bände der Badischen Landtagsprotokolle im Volltext durchsuchbar. In einem Projekt wurden diese in Kooperation mit OCR-BW, dem Kompetenzzentrum für Texterkennung der Universitätsbibliotheken Mannheim und Tübingen mit der Software Tesseract volltexterkannt und in die Digitalen Sammlungen der Badischen Landesbibliothek eingespielt.
Protokolle des Badischen Landtags seit 2012 online
Parlamentsschriften bilden sowohl auf Reich- als auch auf Länderebene eine zentrale Quelle für historische Fragestellungen und werden dementsprechend von der Forschung stark nachgefragt. Die Badische Landesbibliothek hat daher die über 600 Bände umfassenden Landtagsprotokolle von den Anfängen des Landtags 1819 bis zu seiner Auflösung 1933 vollständig digitalisiert und im Jahr 2012 online gestellt. Sie finden sie unter https://digital.blb-karlsruhe.de/792873. Der Einstieg in die Recherche ist sowohl chronologisch als auch nach Abgeordneten möglich. Alle Redner wurden in einer Datenbank erfasst und mit weiteren Informationen z.B. zu von Ihnen gehaltenen Reden versehen. Allerdings waren die Bände bisher nicht im Volltext durchsuchbar.
Volltexterkennung
Dieser Aufgabe hat sich die BLB im letzten Jahr angenommen und konnte sie nun abschließen: Die technische Umsetzung und Massenverarbeitung erfolgt außerhalb der von der BLB eingesetzten Digitalisierungssoftware Visual Library auf einem Linux-Server. Dabei werden die Bilddaten mit einem dafür entwickelten Inhouse-Crawler (Download-Programm) aus Visual Library abgezogen und automatisiert verarbeitet. Anschließend erfolgt ein Re-Import der erzeugten OCR-Daten im Format ALTO (XML) über eine Import-Schnittstelle zurück in Visual Library.
Für die Volltexterkennung stehen Tesseract-Frakturmodelle zur Verfügung, die von OCR-BW mit KI-basierten Verfahren in Form neuronaler Netze entwickelt wurden. Zur Bestimmung der passenden Tesseract-Modelle wird vorab ein Test-Set ausgewählt, für das Ground Truth, d.h. intellektuell erzeugte Transkriptionen, erstellt werden. Damit kann in Testläufen die Erkennungsrate verschiedener Modelle referenziert werden. Zur Bewertung der Ergebnisse kommt die Software ALETHEIA und das semantics-Tool TEXTLAB zum Einsatz.
Für jedes Bild wird eine OCR-Erkennung durchgeführt und zusätzlich eine Text-Datei (zur visuellen Kontrolle) erzeugt. Das Beispiel zeigt die Kommandozeile sowie die Bilddatei und daneben den erkannten Text. Das „lange s“ wird abhängig von der Suchumgebung (PDF, Web) auch als „kleines s“ erkannt bzw. gefunden.
Recherche in den Volltexten der Landtagsprotokolle
Für die Nutzerinnen und Nutzer unserer Digitalen Sammlungen ist nun die Suche über den Volltext der ersten oder zweiten Kammer sowie auch nur über einen ausgewählten Jahrgang möglich. Dazu klickt man wahlweise auf eine Kammer oder einen bestimmten Jahrgang und gibt seinen Suchbegriff dann rechts oben im Suchschlitz ein. Wir wünschen viel Spaß beim Ausprobieren!
Baden. Landtag
Baden. Ständeversammlung
Badische Landesbibliothek
Protokoll
Digitalisierung