Kommentare Abstract
2013/4 Linked Open Data und Big Data

Vom Projekt zum Produkt: Der Linked Data Service der Deutschen Nationalbibliothek

Kommentare Abstract

Das Umfeld, in dem Informationsspezia-listen wie Bibliothekare, Archivare und Dokumentare arbeiten, hat sich mit der Verbreitung des World Wide Webs und den zugrunde liegenden Informationstechnologien grundlegend verändert. Damit ergaben sich neue Möglichkeiten der Datenbereitstellung, der Datennutzung und interdisziplinärer institutionenübergreifender Kooperationsmöglichkeiten.

Motivation und Hintergrund

Das Umfeld, in dem Informationsspe­zialisten wie Bibliothekare, Archivare und Dokumentare arbeiten, hat sich mit der Verbreitung des World Wide Web und den zugrunde liegenden Informa­tionstechnologien grundlegend verän­dert. Damit ergaben sich neue Möglich­keiten der Datenbereitstellung, der Datennutzung und interdisziplinärer institutionenübergreifender Kooperati­onsmöglichkeiten. Die vollständige Überführung existierender Arbeitspro­zesse und lang etablierter Strukturen hin zu einer modernen webbasierten Informationsinfrastruktur ist ein lan­ger Weg – erste Schritte dahin sind bereits getan; weiteres Potenzial ist vorhanden und entsteht durch den fort­schreitenden technologischen Entwicklungsprozess immer wieder neu.

Während Bibliotheksdaten viele Jahre lang in geschlossenen Katalog­systemen isoliert waren, sind sie heute dabei, zu einem stabilisierenden Ele­ment des World Wide Web zu werden. Kontrollierte Vokabulare, standardi­sierte Metadatenformate und ein per­sistenter Nachweis der Ressourcen sind Komponenten, die die Arbeit von Informationsspezialisten seit je beglei­ten. Bibliotheksdaten können nun ei­nen Beitrag zur Verlässlichkeit, Bestän­digkeit und Datenqualitätssicherung des Semantic Web leisten. Zur Bedeu­tung etwa der Nationalbibliografie im Zeitalter des World Wide Web, aber auch des WWW für die Nationalbiblio­grafie, schreiben Kett et. al.: «Es sind Datennetze wie die Linked Open Data Cloud, in die Nationalbibliografien in­tegriert werden müssen, um den Er­wartungen des World Wide Web ge­recht und auch in Zukunft noch als relevant wahrgenommen zu werden.»Kett, Jürgen; Manecke, Mathias; Beyer, Sarah: Die Nationalbibliografie im Zeitalter des Internets. In: ZfBB 59(2012), 2, S. 70.

Zukünftig sind weiterführende Schritte notwendig, um das volle Poten­zial des Linked-­Data-­Modells auszu­nutzen. Damit es für externe Dienst­leister und Portale möglich wird, die bibliografischen Daten in ihre Angebo­te zu integrieren, sollen beispielsweise vorliegende textuelle Informationen (Literale) in Referenzen auf Entitäten umgesetzt werden, also mit Personen, Körperschaften, Ereignissen und Orten sowie anderen Objekten verknüpft wer­den. Dies ist ein weiterer Schritt in die Richtung, die Nationalbibliografie als einen Teilgraphen in der Linked Data Cloud zu verankern1.

Viele Bibliotheken haben die darinliegende Chance erkannt, sich bibliotheksfremden Sparten und Koopera­tionspartnern aus der Forschung zu öffnen und die bibliografischen Daten für weitere Anwendungsfälle attrakti­ver zu vermarkten. Dies schafft eine bessere Nachnutzbarkeit in anderen Kultur­ und Gedächtniseinrichtungen wie Museen und Archiven und ermög­licht eine bessere (technische) Zitier­barkeit im Bereich der Forschung und Wissenschaft – einem Bereich, der zu­nehmend webbasiert arbeitet und auf verlässliche und persistente Datenquel­len im Web angewiesen ist.

Je stärker Bibliotheksdaten mit ande­ren Datenanbietern und Institutionen vernetzt sind, je mehr wird ihre Bedeu­tung in der heutigen Informationsge­sellschaft gestärkt: der Wert eines Kno­tens im Geflecht des Semantic Web bestimmt sich danach, wie viele Fäden zu ihm hinführen.

Erreichte Meilensteine im Linked Data Service der Deutschen Nationalbibliothek 

Der Linked Data Service begann als kleines internes Forschungs­ und Entwicklungsprojekt im Jahr 2009 mit ersten Überlegungen dazu, wie die Da­ten der Deutschen Nationalbibliothek im Kontext des Semantic Web bereitge­ stellt und nutzbar gemacht werden könnten. Funktionalitäten und inhaltli­che Modellierungsaspekte wurden in mehreren Iterationsschleifen in Folge­ projekten bearbeitet. Hierbei halfen sowohl DNB-­interne Evaluationsrun­den sowie Feedback aus der Linked Da­ta Community. Auf diesem Wege wuchs der Linked Data Service Schritt für Schritt aus dem Projektstatus hinaus und wird nun zum Produkt mit ver­ bindlicher Releaseplanung. Hiermit steht RDF (Resource Description Framework)2fortan gleichberechtigt neben weiteren Exportformaten, die von der Deutschen Nationalbibliothek angeboten werden3.

Im Folgenden werden die einzelnen Evolutionsschritte des Linked Data Ser­vices erläutert.

Normdaten als Linked (Open) Data

Im Jahr 2010 hat die DNB sich der Se­mantic Web Community geöffnet und erstmals ihre Normdaten als Linked Data veröffentlicht. In der Gemeinsa­men Normdatei (GND)4sind Personen, Familien, Körperschaften, Kongresse und Veranstaltungen, Geografika, Schlagwörter und Werke (z.B. die Ein­heitssachtitel des Deutschen Musikar­chivs) enthalten. Die heutige GND be­stand damals aus drei getrennten Normdateien: der Personennamendatei, der Schlagwortnormdatei und der Gemeinsamen Körperschaftsdatei. Die Modellierung erfolgte mittels beste­hender Ontologien wie dem Friend­-of­-a­-friend-­Vocabulary (FOAF)5und dem Elementset der Resource Description and Access (RDA)6. Diese Umsetzung konnte den Datenstrukturen nur zum Teil gerecht werden. Daher wurde im Zuge der Zusammenführung der drei früheren Normdateien zur GND auch die RDF-Repräsentation angepasst: Die DNB spezifizierte eine eigene GND­ Ontologie7, die im April 2012 produktiv ging. Die GND-­Ontologie wird sukzes­sive mit Elementen aus anderen, be­reits existierenden Vokabularen ver­knüpft, im ersten Schritt mit dem RDA Element Set und FOAFvgl. Haffner, Alexander: Internationalisierung der GND durch das Semantic Web, 2012, http://www.kim-forum.org/Subsites/kim/DE/Materialien/Dokumente/dokumente_no-de.html.. Sie wird seit ihrer Erstveröffentlichung laufend aktualisiert und auch zukünftig an kom­mende Formatänderungen angepasst.

Umstellung auf die offene Lizenz CCO

Ein wichtiger Aspekt bei der Datenver­öffentlichung im Kontext von Linked Data ist die Frage nach der Nutzungs­lizenz: kommerzielle externe Anwen­dungen und Services können nur dann auf einem Dataset aufbauen, wenn durch dessen Nachnutzung keine rechtlichen Konsequenzen zu befürch­ten sind, sie also unter einer offenen Lizenz stehen. Daher entschloss sich auch die DNB dazu, ab Januar 2012 sämtliche im Format RDF verfügbaren DNB-­Daten unter die Nutzungslizenz Creative Commons Zero (CC0)8zu stellenSvensson, Lars G.: Licensing Library and Authority Data Under CC0: The DNB Experience, 2013. http://www.w3.org/2013/04/odw/odw13_submission_57.pdf.. Seit dem 1. Juli 2012 stehen darüber hinaus alle Normdaten und ein Grossteil der Titeldaten der DNB inklu­sive Kataloganreicherungsdaten auch in anderen Formaten kostenfrei zur Verfügung und werden unter CC0 zur freien Nachnutzung angeboten9.

Die Entscheidung, die DNB-­Daten schrittweise freizugeben und unter die Lizenz CC0 zu stellen, ist eine logische Konsequenz aus den Entwicklungen in der zunehmend globalisierten und ver­netzten Informationswelt. Eine freie Lizenz ist die erste Voraussetzung für die Nachnutzung der Daten im Seman­tic Web.

Bereitstellung von Titeldaten

Anfang 2012 wurde der Linked Data Service um Titeldaten erweitert – die Voraussetzung, um auch im Kontext von Linked Data auf die Titel der Deut­schen Nationalbibliografie zu referen­zieren. 

Der Umfang der konvertierten Ti­teldaten umfasst derzeit die Deutsche Nationalbibliografie inklusive der darin enthaltenen fortlaufenden Sammel­werke der Zeitschriftendatenbank (ZDB)10. Musikalien, Tonträger und die Bestände des Deutschen Exilarchivs und des Deutschen Buch­ und Schrif­tenmuseums sind aktuell noch nicht umgesetzt. Während für bibliografi­sche Textdaten bereits ein Application Profile durch die Titeldaten der DINI­-AG-­KIM­-Gruppe11spezifiziert wurde, gibt es für Archivalien und Sonderbe­stände derzeit noch keinen Standard, der implementiert werden kann. Eine enge Zusammenarbeit mit Fachleuten aus dem Bereich Archiv und Dokumen­tation ist erforderlich, um eine RDF­ Repräsentation für Sonderbestände zu erarbeiten. Aktuell ist eine Kooperation der DINI-­AG-­KIM­-Gruppe­-Titeldaten mit Musikbibliothekaren in Planung, um ein Anwendungsprofil für Musika­lien und Tonträger zu erarbeiten. Lang­fristiges Ziel ist es, sämtliche Daten der Deutschen Nationalbibliothek inklusi­ve kontrollierter Vokabulare als Linked Open Data bereitzustellen. Weitere Schritte sind geplantVgl. S. Hartmann, J. Hauser: Die Deutsche Nationalbibliografie in der Linked Data Cloud. In: Bibliotheken: Tore zur Welt des Wissens / 101. Bibliothekartag in Hamburg 2012. Hrsg. von Klaus-Rainer Brintzinger u.a. – Hildesheim; Zürich; New York, NY: Olms, 2013 (S. 57-71)..

Geplante Schritte und Ausblick

Neben bereits erwähnten inhaltlichen Erweiterungen ist vor allem der Ausbau externer Verlinkungen für die Zukunft vorgesehen: Die Titeldaten sollen in kommenden Releases mit Titeln der British Library (BL)12verknüpft wer­den. Auch die Normdaten sollen weiter mit externen Verknüpfungen angerei­chert werden, so etwa zu Geonames13, den LCSH14 und RAMEAU15.

Die Deutsche Nationalbibliothek arbeitet ausserdem in unterschiedli­chen Projekten und Initiativen mit, die sich mit der Bereitstellung und Nut­zung von Daten im Semantic Weg be­schäftigen, wie der Deutschen Digita­len Bibliothek16 oder der europeana17. Darüber hinaus ist die DNB Mitglied der Early Experimenters Group der von der der Library of Congress initiierten Bibliographic Framework Transition Initiative (BIBFRAME)18. Ziel dieser Initiative ist es, das MARC­21­Format durch ein nachhaltiges, RDF-­basiertes Rahmenkonzept abzulösen. Die vor­ handene DNB­Expertise hinsichtlich Konkordanzen, Formatumstiegen und der Konvertierung sowie Bereitstellung von RDF-­Daten sind hierbei wichtige Grundlagen.

Verstetigung des Services: RDF als gleichberechtigtes Exportformat 

Ab Januar 2014 werden die Norm­ und Titeldaten in RDF, die über den Linked Data Service bereitgestellt werden, in regulären Export­Releases mit bear­beitet19. Mit diesem Schritt hat der Lin­ked Data Service endgültig seinen Pro­jektstatus verloren und wird in den Regelbetrieb überführt: Von nun an gelten verbindliche Zeitrahmen für die Anforderungserhebung, Tests, Reali­sierung und die Bereitstellung. Diese Abläufe werden für die Kunden trans­parent gemacht, sodass ggf. ausrei­chend Vorlauf für Anpassungen in ih­ren Systemen zur Verfügung steht. Die DNB schafft damit eine zuverlässige Struktur für die Nachnutzung der Da­ten und die Einbindung in Anwendun­gen durch externe Nutzer. Zukünftig werden verbindlich in den Monaten Januar, Mai und September neue Re­leases veröffentlicht und anschlissend zeitnah Gesamtabzüge (Dumps) in RDF bereitgestellt.

Für Rückmeldungen, Fragen und Än­derungsankündigungen sowie als all­ gemeiner Informationskanal wurden Mailinglisten eingeführt für den Lin­ked Data Service im Allgemeinen20 und die GND-­Ontologie im Speziellen21. Anregungen und Kritik zur Verbesse­rung des Linked Data Services sind willkommen über die Mailinglisten – weitere Kontaktmöglichkeiten sind auf der Website genannt22.

Avatar

Julia Hauser

Julia Hauser ist Diplom-Bibliothekarin in der IT-Abteilung der Deutschen Nationalbibliothek (DNB). Hier arbeitet sie seit 2009 an Projekten zur Repräsentation der DNB-Daten im Kontext des Semantic Web mit. Julia Hauser verantwortet den Linked Data Service der DNB und koordiniert den DNB-Beitrag zur BIBFRAME-Initiative der Library of Congress.

Abstract

Depuis 2010, la Bibliothèque nationale allemande (DNB) fournit ses données au format RDF, conforme aux besoins du Web sémantique, via un service de Web des données (linked data).

Par cette initiative, les utilisateurs et groupes d’usagers ont eu, pour la première fois, la possibilité de réutiliser les données, sans avoir besoin d’une quelconque connaissance des formats propres aux bibliothèques. Initialement, il s’agissait d’un prototype, lequel a été développé ensuite dans le cadre de projets. Après plusieurs versions, il a été optimisé sur les plans technique, fonction-nel et organisationnel. Parallèlement, RDF s’est imposé comme format d’exportation: le service de Web de données est ainsi passé du projet au produit.

La contribution donne un aperçu touchant les motifs de la démarche, évoque les pro-blèmes de licence, les étapes de développement, rappelle l’évolution des contenus et fournit un aperçu des prochaines étapes.