Logo HU Berlin
Logo FU Berlin Logo Xinnovations

Impulse

zur Übersicht

Clemens Neudecker

Staatsbibliothek zu Berlin – Preußischer Kulturbesitz

Digitale Kuratierungstechnologien in Bibliotheken: Aktivitäten und Anforderungen am Beispiel der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz

Vortrag zur Fachtagung vom 11. Oktober 2016

Bibliotheken sind Wissensspeicher – neben unzähligen Dokumenten wie Büchern, Zeitungen, Zeitschriften und vielen weiteren Informationsträgern mehr, die in Bibliotheken aufbewahrt und der Öffentlichkeit zugänglich gemacht werden, bilden jedoch auch Ontologien und Systematiken einen elementaren Bestandteil einer jeden Bibliothek - um dieses Wissen zu ordnen, zu erschließen und zu kontextualisieren und damit besser findbar und nutzbar zu machen. All dies lässt sich auch 1:1 in die digitale Welt übertragen – so werden bereits seit nunmehr gut zwei Jahrzehnten in großem Stil Dokumente in Bibliotheken digitalisiert, inzwischen fast immer auch mit Optischer Texterkennung (Optical Character Recognition) zusätzlich zum gescannten Faksimile. Darüber hinaus sind auch digitale Normdatenrepositorien und Metadatenschemata entstanden, die es ermöglichen, digitalisierte Bestände und ihre Metadaten tiefer zu erschließen, semantisch anzureichern und miteinander zu verknüpfen.

In der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz wird bspw. neben dem überregionalen Zeitungsportal ZEFYS, das aktuell ca. 3,3 Millionen gescannte Zeitungsseiten und vollautomatisch erzeugte Volltexte enthält, auch die überregionalen Angebote der Zeitschriftendatenbank mit ihren etwa 15 Millionen Bestandsdaten und der Kalliope-Verbundkatalog zu Nachlässen mit über 3 Millionen Verzeichniseinheiten betreut. Was diese drei Bestände für die Nutzung in Wissenschaft und Wirtschaft besonders interessant macht ist, dass in allen drei Ressourcen Millionen von Daten unter weitgehend freien Lizenzen (CC0, Public Domain) bereit stehen, die bereits einen hohen Grad an Standardisierung und Verknüpfung mit redaktionell betreuten Normdaten erreicht haben und in großen Verbänden mit zahlreichen beteiligten Einrichtungen in Deutschland und darüber hinaus kollaborativ ausgebaut werden. Langfristig soll hierdurch ein digitaler „Datenhub“ aufgebaut werden, auf den Dritte in komfortabler Weise über Schnittstellen (APIs) zugreifen können, um hochgradig strukturierte und reichhaltige Information daraus abzurufen, statistische Auswertungen und Analysen zu berechnen oder aufschlussreiche Visualisierungen zu generieren.

Die Erkennung von Eigennamen (Named Entity Recognition), deren Disambiguierung und multilinguale Verlinkung mittels Ontologien (Linked Open Data), die Normalisierung von Schlagwortverzeichnissen und Vokabularien zur Beschreibung von Beständen spielen dafür aktuell in Bibliotheken, Museen und Archiven eine besonders wichtige Rolle. Aber auch Methoden, die es Nutzern digitaler Bestände erlauben, eigene Annotationen und Verknüpfungen zu externen Datenbeständen herzustellen sowie deren persistente und zitierfähige Bereitstellung und schließlich auch die transparente Versionierung immer dynamischerer Daten treten stärker in den Vordergrund. Dafür wird z.B. aktuell mit eine Reihe von technologischen Frameworks experimentiert, um eine nachhaltige Datenkuratierung in die digitalen Workflows zu integrieren.

Open Source Software wie Apache UIMA, Apache Stanbol oder das Factorie Framework der University of Massachusetts für maschinelles Lernen, sind einige der Technologien deren Potentiale aktuell in der Staatsbibliothek zu Berlin erprobt werden. Allein, bis zum produktiven Einsatz solcher Technologien in Standardprozessen bestehen durchaus noch zahlreiche Hürden – so sind bspw. die vollautomatisch erzeugten Volltexte immer noch von unzureichender Qualität, die semantische Anreicherung von insbesondere historischen Texten schwierig und die Verknüpfung von bibliographischen Metadaten mit Normdaten oder gar mit Beständen in anderen Sprachen oder Medientypen dringend ausbaubedürftig. Technische Verfahren und Dienste müssen darüber hinaus auf die besonderen Anforderungen in Bibliotheken angepasst werden – sowohl was Datenformate und IT-Standards, als auch was die Bedienbarkeit und Dokumentation betrifft.

Projekte wie DKT oder, auf europäischer Ebene, FREME, sind deshalb wichtige Wegbereiter um einerseits die Wissensspeicher in Bibliotheken in ihrem gesamten Reichtum ins Digitale zu übertragen und damit für Wissenschaft, Wirtschaft und die Öffentlichkeit besser und einfacher nutzbar zu machen, andererseits aber auch um neue und innovative Technologien mittelfristig als Standardprozesse in die Kuratierung des rasant wachsenden digitalisierten kulturellen Erbes zu etablieren.

Präsentation ansehen (PDF)

Kurzbiographie

Clemens Neudecker, M.A., studierte Philosophie, Informatik und Politische Wissenschaften an der LMU München. Seit 2003 ist er als Projektkoordinator in zahlreichen Forschungsprojekten rund um die Digitalisierung tätig, zuerst an der Bayerischen Staatsbibliothek, dann an der Nationalbibliothek der Niederlande und seit 2014 an der Staatsbibliothek zu Berlin. Sein besonderes Interesse gilt skalierbaren Workflows für die Digitalisierung sowie innovativen Methoden und Werkzeugen der Digital Humanities.