Alter Bestand neu choreographiert – Zettelkataloge mit Schwung in den OPAC
Die Bibliothek der Bundesanstalt für Geowissenschaften und Rohstoffe (BGR) besitzt noch einen dreifachen Zettelkatalog, der die Bestände vor 1990 formal, sachlich und regional sortiert auf rund dreimal 650.000 Katalogkarten nachweist. Seit einem Jahr wird dieser Katalog unter Nutzung von Methoden des maschinellen Lernens retrokatalogisiert. Um diese Zusatzaufgabe mit dem vorhandenen Personal bewältigen zu können, wird insbesondere für die Extraktion der bibliographischen Angaben auf semi-automatische Verfahren gesetzt. Letztendlich ist das Ziel, die extrahierten und bereinigten Daten in die entsprechenden Datenfelder im OPAC zu überführen.
Der Fokus wird im Projekt bewusst auf ein niedrigschwelliges Vorgehen gelegt, um bei den Mitarbeitenden kein technisches Vorwissen oder Erfahrungen mit maschinellem Lernen voraussetzen zu müssen. Die einzelnen Schritte werden in einer eigens entwickelten, modularen Software namens „ALPACA“ zusammengefasst, verwaltet und ausgeführt. Der Prozess ist in allen Schritten – vom Scannen bis zur Metadatenextraktion – transparent und nachvollziehbar, sodass Fehler des automatischen Systems erkannt, korrigiert und in den Lernprozess integriert werden können. Die abschließende Kontrolle liegt jedoch immer bei den menschlichen Mitarbeitenden und entspricht somit dem Konzept des „Human in the Loop“. Hierdurch werden auch die Zuverlässigkeit und das Vertrauen in die Daten gestärkt – wesentlich für die Akzeptanz in der eigenen Bibliothek und im Verbund.
Der Vortrag beschreibt den im Projekt ALPACA erreichten Stand, die einzelnen Prozessschritte und wie maschinelles Lernen diese unterstützt. Insbesondere wird ersichtlich, wie kleinere Spezialbibliotheken mit wenig Ressourcen die maschinellen Verfahren auch in ihrem Bereich gewinnbringend einsetzen können. Die Anwendung der vorgestellten Verfahren ist dabei nicht auf Zettelkataloge beschränkt, prinzipiell lassen sich alle strukturierten Informationssammlungen hiermit bearbeiten.
Referenten:
Andreas Lüschow
Frank Förster
Bundesanstalt für Geowissenschaften und Rohstoffe (BGR)
Stilleweg 2
30655 Hannover