12. September 2025

KI Anwendung für historische Zeitungen KI Anwendung für historische Zeitungen

TRAs unterstützen BNTrAInee Projekt im Bereich Digital Humanities

Wirtschaftshistoriker PD Dr. Felix Selgert berichtet über seine Zusammenarbeit mit Informatiker Dr. Moritz Wolter

IMG_3547.jpg
IMG_3547.jpg © Felix Selgert
Alle Bilder in Originalgröße herunterladen Der Abdruck im Zusammenhang mit der Nachricht ist kostenlos, dabei ist der angegebene Bildautor zu nennen.
Bitte füllen Sie dieses Feld mit dem im Platzhalter angegebenen Beispielformat aus.
Die Telefonnummer wird gemäß der DSGVO verarbeitet.

Die ersten Ansätze der Digitalisierung der geisteswissenschaftlichen Forschung gehen bis in die 1940er Jahre zurück. Für seine Dissertation zum Präsenzbegriff bei Thomas von Aquin musste der Theologe Robert Busa eine Konkordanz des umfangreichen Werks Aquins erstellen. Dafür griff er, mit Unterstützung von IBM, auf Lochkarten zurück. Die Institutionalisierung als Fach setzte dann in den 1960er Jahren ein und um die Jahrtausendwende etablierte sich die Bezeichnung „Digital Humanities“. Die Geschichtswissenschaft war in diesem Prozess lange Zeit eine Nachzüglerin. Denn das Fach arbeitet hauptsächlich mit handschriftlichen und gedruckte Quellen, die in Archiven oder Bibliotheken lagern und nur dort eingesehen werden konnten. Erst die Digitalisierung einiger Archive und die Massendigitalisierung von Büchern und vor allem historischen Zeitschriften macht es seit einigen Jahren möglich, Methoden des Natural Language Processing (NLP) auf historische Texte anzuwenden und auf diese Weise mit der durch die Digitalisierung entstandenen Herausforderung, wie aus Millionen potentiell relevanten Texten die für eine Forschungsfrage geeigneten auszuwählen und zu verarbeiten sind, umzugehen.

Den Anwendung von NLP-Methoden stehen aber weiterhin trotz Digitalisierung Herausforderungen gegenüber. Moderne OCR-Modelle kommen beispielsweise mit den weit verbreiteten Frakturtypen und dem komplexen Spaltenlayout historischer Zeitungen nicht gut zurecht, so dass die digitalen Textfassungen oft mangelhaft sind. Dies mussten auch wir am Institut für Geschichtswissenschaft feststellen als wir für eine Lehrveranstaltung Topic Modelle an den Digitalisaten der Kölnischen Zeitung erproben wollten. Bei der Suche nach einer Lösung stieß ich mit Hilfe der Vermittlung durch die TRA Individuals and Societies auf das BNTrAinee Programm und die Kooperation mit Moritz Wolter begann.

Im Rahmen einer Projektgruppe haben wir zusammen mit Studierenden der Geschichtswissenschaft und der Informatik einen Trainingsdatensatz zur Erkennung des Layouts der Kölnischen Zeitung erstellt und ein erstes Faltungsnetz trainiert. Mit der finanziellen Unterstützung der TRA Modelling konnten wir das Projekt im Anschluss fortsetzen und den Trainingsdatensatz um zusätzliche Zeitungen erweitern und auch Anzeigen in das Training aufnehmen. Mittlerweile umfasst der annotierte Trainingsdatensatz 801 Seiten mit über drei Millionen Wörtern und ist über gitlab öffentlich verfügbar. Damit stellen wir der Forschung den größten deutschsprachigen in Fraktur gesetzten Zeitungsdatensatz zur Verfügung und es ist geplant, den Datensatz in Zukunft weiter zu vergrößern und ihn so auch für das Trainieren von Transformerarchitekturen nutzbar zu machen. Zudem haben wir mit Hilfe des Bonner Großrechners Marvin und JUWELS am Forschungszentrum Jülich eine vollständige Pipeline aus verschiedenen Faltungsnetzen und Long-Short-Term-Memory Zellen trainiert, die Layoutelemente und Text einer Zeitungsseite erkennt und im XML-Format digital verfügbar macht. Die Ergebnisse unserer Arbeit konnten wir Mitte 2025 im Journal of Data-centric Machine Learning Research veröffentlichen.

BNTrAinee - Bonn Transdisciplinary Training in Artificial Intelligence Behavior
 
Die bestehende KI-Expertise der Informatik wird im Rahmen des Projekts strukturell mit verschiedenen Fachdisziplinen als Anwender*innen von KI vernetzt, sodass bedarfsorientierte Lehr-/Lernangebote gemeinsam entwickelt werden. Die Bereitstellung der Lehr-/Lernangebote erfolgt über eine Lernplattform.

Forschungsinfrastruktur der Exzellenz-Universität Bonn

Bibliotheken und digitale Dienstleistungen sind Teil der zentralen Serviceangebote für alle Forschenden der Universität Bonn. Darunter die  Services der Universitäts- und Landesbibliothek Bonn (ULB), des High-Performance Computing and Analytics (HPC/A) Lab und des Bonn Center for Digital Humanities.

PD Dr. Felix Selgert

Abteilung für Verfassungs-, Sozial- und Wirtschaftsgeschichte

Universität Bonn

fselfert@uni-bonn.de

Dr. Moritz Wolter

High Performance Computing & Analytics Lab (HPC/A)

Universität Bonn

moritz.wolter@uni-bonn.de

Wird geladen