Kommentare Abstract
2013/4 Linked Open Data und Big Data

Dimensionen und Zusammenhänge grosser, verknüpfter, offener und wissenschaftlicher Daten

Kommentare Abstract

Nachdem die Flut der Diskussionen, Kommentare und Prophezeiungen das Social Web betreffend nun verebbt ist, bricht bereits die neue Flutwelle über die Dämme und überspült uns mit dem, was im Social Web und anderswo in Massen ohne Unterlass und Überlegung produziert wird: Daten!

Einleitung

Man gewinnt nicht nur den Eindruck, dass die verhältnismässig alte Bezeich­nung der elektronischen Datenverar­beitung eine ganz neue Bedeutung er­halten hat, sondern dass die Daten gleichsam selbst zu Information ge­worden sind, auch wenn dies auf den ersten Blick als widersinnig erscheinen mag. Dieser paradoxe Eindruck ver­stärkt sich jedoch, wenn in einflussrei­chen Kreisen nicht mehr vom Informationszeitalter gesprochen wird, son­dern vom Zeitalter der Daten. So wird bereits ein neues und viertes wissen­ schaftliches ParadigmaJim Gray on e-Science: «A transformed Scientific Method», in: Hey, Tony, Tansley, Stewart, Tolle, Kristin: The Fourth Paradigm: Data Intensive Scientific Discovery. Microsoft Corporation. 2009, S. xviii http://research. microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf.heraufbeschwo­ren und nach den wissenschaftstheore­tischen Vorläufern der empirischen Beschreibung von Naturphänomenen (1. Paradigma), der theoretischen Ge­neralisierung (2. Paradigma) und der computerbasierten Simulation (3. Para­digma) nun das Zeitalter der daten­intensiven wissenschaftlichen Entde­ckung verkündet.

Aber was heisst das eigentlich? Sind die übrigen Paradigmen der Wissenschaftsgeschichte damit bedeu­ tungslos geworden? Und wie verhält es sich mit dem Kontext der Daten, durch den sie normalerweise zu Information werden? Oder sind Daten nicht mehr gleich Daten? Und was heisst dies für Bibliotheken, Archive und Dokumenta­tionszentren? Sind sie oder ihre Daten betroffen? Ergeben sich neue Arbeits­aufträge für sie oder werden sie von einem weiteren Bedeutungsverlust be­troffen sein?

Im Folgenden soll versucht wer­den, diese Fragen einzugrenzen und entsprechend dem derzeitigen Stande der Dinge zu beantworten. Dies soll anhand dreier unterschiedlicher Da­tentypen illustriert werden, die derzeit unterschiedlich stark diskutiert wer­den, sich trotz ihrer Unterschiede aber an einzelnen Punkten berühren bzw. in unterschiedlicher Beziehung zueinan­der stehen: Big Data, Linked Open Data und Research Data (d.h. grosse Datenmengen, verknüpfte und offene Datenmengen sowie Forschungsda­ten). Diese dreifache Auffächerung von Datenverarbeitungsinitiativen beant­wortet bereits unmittelbar eine der wei­ter oben formulierten Fragen und zeigt, dass Daten wirklich nicht mehr gleich Daten sind. Die Informationswissen­schaft und alle damit verbundenen In­stitutionen stehen damit auch vor der Herausforderung, sich auf diese Daten und die damit verbundenen Aufgaben einzustellen.

Big Data

Den grössten Block (im doppelten Sinn) machen dabei die gemeinhin un­ter Big Data subsumierten Datensätze aus, von deren Existenz und Konse­quenz mittlerweile auch die Normal­ bürger erfahren haben, was insofern gut ist, da sie selbst zu den Hauptpro­duzenten, bedauerlicherweise aber nicht zu den Nutzern gehören. Big Data wurde dabei letztlich durch zwei Phänomene möglich: erstens die wei­ter­hin exponentiell steigende Leis­tungsfähigkeit der Prozessoren sowie die damit parallel verlaufende Steige­rung der Speicherkapazitäten der Rech­ner, zweitens durch den Anstieg der täglich bzw. sekündlich produzierten und aufgezeichneten Datenmengen, die allerorts durch die Vernetzung der Endgeräte (vom Grossrechner bis zum Smartphone und den darauf befindli­chen Apps) ins Web eingespeist und von dort weiterverarbeitet werden. Ge­speichert wird dabei alles, was geht: Daten, mit oder ohne Metadaten, oder die Metadaten alleine, aus denen sich ja streng genommen der eigentliche Kontext der Daten bzw. ihr Verständnis ergibt. Entscheidend ist aber, dass aus diesen Daten ein neuer Kontext erzeugt wird und zwar mithilfe spezieller Algo­rithmen, genauer mit sogenannten Inferenzmechanismen, also Schlussfol­gerungsregeln der Maschinen, die sie verwalten und bearbeiten. In den Schlussfolgerungsregeln des Big Data werden orthogonale, d.h. prinzipiell voneinander unabhängige Merkmale miteinander verknüpft, um neue oder bis dahin unbekannte Zusammenhän­ge aufzuzeigenDietmar Dath, Ranga Yogeshwar (2013): «Rechnen Sie damit, lebenslang ein Verdächtiger zu sein», FAZ vom 12.7.2013.. Mit dieser an und für sich recht einfachen Vorgehensweise, die von Menschen täglich bewusst oder unbewusst ausgeführt wird, stellt sich der einfache, und von daher sehr erfolgsversprechende Business Case von Big Data dar, der nun aber von den Maschinen ausgeführt wird. Damit sollte auch klar sein, dass hinter Big Data zu einem sehr grossen Teil wirtschaftliche oder andere Interessen stehen, die nicht primär im Interesse der Produ­zenten sind, auch wenn die ethischen Implikationen an dieser Stelle nicht ausgeführt werden sollen.

Linked Open Data (LOD)

Eher unabhängig davon verläuft die Linked­-Open­-Data-­InitiativeBizer, Christian, Tom Heath, and Tim Berners-Lee (2009). «Linked data-the story so far.» International Journal on Semantic Web and Information Systems (IJSWIS) 5.3, 1–22.. Unab­hängig in dem Sinne, dass die hier ver­knüpften (Linked) und veröffentlichten (Open) Datensätze nicht notwendiger­weise eine Teilmenge der grossen (Big) Daten sind, im Gegenteil: Der Um­stand, dass LOD die gemeinnützige Publikation sowie eine Verknüpfung zur Conditio sine qua non macht, schliesst den orthogonalen Charakter der grossen Datensätze aus und eröff­net eine ganz andere Sichtweise. Im Gegensatz zu Big Data beschränkt sich LOD auf Daten, die im Web zur Verfügung gestellt werden, und nicht in irgendwelchen nicht-öffentlichen Daten­ banken oder Clouds gespeichert wer­den. Des Weiteren ist ihr Umfang, trotz der an und für sich unvorstellbaren Menge der Daten, die die LOD-­Cloud mittlerweile enthält, vergleichsweise klein.

Im Rahmen von Linked Open Data soll ein Grundproblem gelöst werden, das darin besteht, dass der grösste Teil des Wissens, das im Web publiziert wird, in relationalen Datenbanken ge­speichert, aber nur einem sehr flachen Format (genauer: HTML, der Hypertext Markup Language) repräsentiert wird. Dies führt dazu, dass die ursprünglich gesetzten Relationen verloren gehen und eine direkte Kommunikation (im Sinne eines reziproken Verständnis­ses) zwischen den Datenbanken nicht möglich ist. Dieses Problem wird nun dadurch gelöst, dass eine neue Daten­ ebene eingeführt wird, die Auskunft über die semantischen Relationen gibt. Der eigentliche Mehrwert von Linked Open Data besteht also darin, dass sie die Relationen aller Datenbanken in ein einheitliches Format überführen, was – genau wie im Fall von Big Data – da­zu führen kann, dass die Maschine über sie räsonieren kann. Wiederum geht es also nicht um kognitive Prozesse von Menschen, sondern darum, diese in Rechnern zu repräsentieren und zu si­mulieren und den Maschinen zu erlau­ben, selbstständig Rückschlüsse aus den verknüpften Daten zu ziehen. 

Forschungsdaten

Etwas im Abseits dieser grossen Bewe­gungen findet – auf den Bereich der Wissenschaften beschränkt – seit eini­gen Jahren eine weitere Diskussion statt, die die sogenannten Forschungs­daten zum Hauptgegenstand des Inte­resses gemacht hat.

Die gesamten Anstrengungen las­sen sich sehr gut an zwei grundlegen­ den Modellen illustrieren: dem Modell des DatenlebenszyklusSarah Higgins (2008): «The DCC Curation Lifecycle Model». International Journal of Digital Curation 3(1), 134–148., das von ersten Projektideen über die Ablage und dau­ erhafte Speicherung von Datensätzen bis hin zu deren Integration in Publi­kationen und deren Zitation reicht, und dem Modell für das DatenkontinuumAndrew Treloar (2011): Private Research, Shared Research, Publication, and the Boundary Transitions. http://andrew.treloar.net/research/diagrams/data_curation_continuum.pdf., das eine kontinuierliche Weitergabe und den Austausch der Daten garantie­ren soll und zwar unabhängig davon, ob es sich um Rohdaten, strukturierte Daten, Metadaten oder die in späteren Publikationen eingebundenen Daten handelt. Der Mehrwert für den For­scher und die Öffentlichkeit ergibt sich daraus, dass beide quasi uneinge­schränkt und über alle Soft­ und Hard­ warewechsel Zugang zu diesen Daten für eine Nachnutzung oder Überprü­fung haben. Auch wenn man davon ausgehen kann, dass sich das Interesse dafür sowohl bei den meisten For­schern als auch der Gesellschaft, die diese Forschung finanziert, in Grenzen hält, wird eine Sicherung der For­schungsdaten mittlerweile zu den gu­ten und festen Regeln für eine transparente Forschung gezählt. Der grösste Vorteil für den Forscher ergibt sich daraus, dass die Datensätze selbst, d.h. die Primärdaten, zitier­ und publizier­bar werden. In einigen Disziplinen gibt es parallel dazu bereits «Peer Reviewed Data Paper», die allein die Datensätze enthalten.

Was das spezielle Verhältnis von Forschungsdaten zu Big und Linked Open Data betrifft, lässt sich sagen, dass sie – etwa im Fall des Large Hadron Colliders – sehr gross sein können. Sie können auch mit LOD verknüpft und angereichert werden, müssen es aber nicht.

Dabei sollte nicht ausser Acht ge­lassen werden, dass bei den For­schungsdaten eine ganz andere grund­sätzliche Frage im Vordergrund steht: wie bewahren wir (Roh­)Daten langfris­tig auf, sodass sie uns zu einem späte­ren Zeitpunkt zur Nachnutzung wieder problemlos zur Verfügung stehen? Es geht also in erster Linie um ganz grund­sätzliche Fragen der Archivierung, der Kompatibilität und der Interoperabili­tät, im Grunde also um Fragen, die auch die Bereiche der grossen und der ver­knüpften Datenmengen irgendwann betreffen könnten. Man kann sich aber auch nicht des Eindrucks erwehren, dass gerade in der Debatte um die Forschungsdaten so prinzipielle Fragen angegangen werden, dass den Beteilig­ten noch gar nicht genau klar ist, wie diese gelöst werden sollen, auch wenn es zumindest in einzelnen Disziplinen bereits Lösungsansätze bzw. respekta­ble Lösungsvorschläge gibt.

Bibliotheken und Daten: eine neue und notwendige Herausforderung 

Bleibt die Frage nach der Rolle der In­stitutionen, die traditionell mit diesen Fragen beschäftigt waren. Zuvorderst handelt es sich dabei um die Bibliothe­ken, auch wenn die Archive und Doku­mentationszentren in einzelnen Berei­chen ein Wort mitsprechen könnten, sofern ihre Expertise noch gefragt ist.

Die grossen Datenmengen (Big Da­ta) können die Bibliotheken, Archive und Dokumentationszentren schnell ausser Acht lassen, auch wenn sie tra­ditionell damit beauftragt waren, grös­sere Informationsmengen aufzube­wahren. An Big Data zeigt sich viel­ mehr, wie schnelllebig die Zeitläufte geworden sind. Wähnten sich die Bib­liotheken (zumindest einige erlauchte unter ihnen) bis vor Kurzem noch an vorderster Front in der grössten Digita­lisierungsinitiative und durften sie sich noch als strategisch wichtige Datenlie­feranten der erfolgreichsten Suchma­schine ansehen, müssen sie nunmehr erkennen, dass sie vom Gehilfen des globalen Players zum staunenden Be­trachter noch weitaus grösserer Daten­ verwalter geworden sind.

Anders verhält es sich bei der Linked­-Open­-Data-­Initiative. Sollten die Bibliotheken und ihre Katalogisie­rungsabteilungen sowie die Verbund­zentren dazu bereit sein, würde sich Linked Open Data als der notwendige, wenn nicht sogar zwingende kommen­de Schritt darstellen, um die Kataloge in ein Format zu bringen, von dem de­ren Anbieter selbst, aber auch viele an­ dere profitieren können. Schlussend­lich könnten damit – neben vielen an­ deren positiven Seiteneffekten und neuen Nutzungsformen der Katalogda­ten – vor allen Dingen die Probleme der Konvergenz unterschiedlicher Ver­bunddaten sowie die komplizierten Be­mühungen für die Erstellung standar­disierter Metakataloge ein Ende haben. 

Ähnlich verhält es sich mit den For­schungsdaten, auch wenn hierbei we­niger die Katalogisierenden als viel­mehr die Kollegen aus dem Bereich des E­-Publishing sowie die Betreiber der Open-­Access-­Plattformen eine Rolle spielen werden. Ihre Aufgabe wird es sein, neben den Langzeitarchivaren und im Verbund mit den Datenzentren die Datensätze, so gross oder (eher) klein sie auch sein mögen, mit einer persistenten Adressierbarkeit für eine Nachnutzung, Nanopublikation oder ­zitation zur Verfügung zu stellen.

Erinnerung, Betrachtung, Erwartung

Festzuhalten bleibt, dass es insgesamt sehr unterschiedliche Vorstellungen vom Umgang mit Daten gibt, die der­zeit in drei unterschiedlich grossen Ini­tiativen angegangen und diskutiert werden, wobei durchaus Berührungs­ punkte bestehen. Das gegenwärtige Bild der Dateninitiativen zeigt sich so dynamisch, dass derzeit nicht antizi­pierbar ist, ob die Dateninitiativen wei­ter zersplittern, konvergieren oder etwa zu einem Schichtenmodell zueinander finden können.

Die reine Betrachtung der Gegenwart liefert aber noch keine Antworten auf die zwei grundlegenden Fragen: Wa­rum heben wir die Daten eigentlich auf ? Und: Warum interessieren wir uns so sehr für sie? Diese zwei Fragen las­sen sich letztlich mit ganz grundsätzli­chen menschlichen Bedürfnissen be­antworten: erstens einem eher rück­wärtsgewandten Bedürfnis, nämlich dem Sammeln und dem daraus resultierenden Bedürfnis nach Erinnerung, zweitens mit der Organisation bzw. der Repräsentation von Wissen, um es im­mer, d.h. gegenwärtig, zur Verfügung zur haben, und drittens dem eher vor­wärtsgewandten Wunsch, Zukünftiges vorhersagen zu können. Aus dieser Per­spektive betrachtet, lassen sich kurioserweise Parallelen zu den drei Dimen­sionen der Zeit erkennen, die Augustinus im elften Buch der Confessiones in seiner Reflektion über das Wesen der Zeit entwickelte. Interessanterweise sprach er nicht allein von Praeteritum, Praesens und Futurum, sondern von «praesens de praeteritis memoria, pra­esens de praesentibus contuitus, pra­esens de futuris expectatio»1, d.h., er assoziierte die Erfahrung der Zeit mit drei zentralen Begriffen: Memoria (Er­innerung), Contuitus (Betrachtung) und Expectatio (Erwartung).

So mag es für ein grundlegendes Verständnis hilfreich sein, die unter­schiedlichen Konzepte zum Umgang mit Daten schlussendlich mithilfe die­ser drei Dimensionen zu begreifen: der Memoria entsprechen die Bemüh­ungen um die Archivierung und Nachnutzung von Daten; die LOD-­Ini­tiative zeigt das Bemühen, eine Daten­schicht für die gegenwärtige Betrach­tung, also den Contuitus, aufzubauen; die Bestrebungen von Big Data entspre­chen schliesslich dem Wunsch, die Handlungs­ und Gedankenwege ande­rer vorherzusagen.

Nicht umsonst begann die Wissen­schaft der Daten mit Euklids Geomet­rie, in denen zum ersten Mal von «De­domena» (dem Gegebenen)Jakob Voss (2013): «Was sind eigentlich Daten?» Libreas. Library Ideas, 23, http://libreas.eu/ausgabe23/02voss.die Rede ist, die in der ersten Übersetzung ins Lateinische eben mit dem Wort Data wiedergegeben wurden. Euklid sah als Dedomena jenes Gegebene an, aus dem sich gesuchte, d.h. nicht bekannt geometrische Zusammenhänge er­schliessen lassen. Nichts anderes ist – wenn wir den geometrischen Zusam­menhang beiseitelassen – bei Big Data und Linked Open Data der Fall. Hier ist der Zusammenhang so einfach wie offensichtlich.

Wir sollten dabei auch nicht vergessen, dass seit Anbeginn der Wissenschaftsgeschichte praktisch alle namhaften Forscher darum bemüht waren, die Zu­kunft vorherzusagen, mit welchen Mit­teln auch immer. Auch wenn wir es heute nicht mehr wahrhaben wollen, schrieb Newton, der gerne als Vater der modernen Wissenschaften angesehen wird, und darauf verwies «auf den Schultern von Giganten» zu stehen, mehrere Bücher zur Prophetie und der AlchimieJohn Freely (2009): Aladdin’s Lamp, Alfred E. Knopf, New York..

Diese beiden alles überragenden Interessen (Prophetie und Alchimie) führten letztlich zum Entstehen der ungleichen Schwestern Astronomie und Astrologie sowie der Ablösung der Alchimie durch die Chemie. Wissen­schaftstheoretisch würde sich die gan­ze Diskussion um Daten also als nichts Weiteres herausstellen als die Suche nach dem Beweis, dass Prophetie nichts anderes als ein ganz rationales und be­rechenbares Unterfangen ist.

Avatar

René Schneider

Haute Ecole de Gestion de Genève

Abstract

Mais que peuvent donc signifier ces énormes quantités de données ouvertes et reliées entre elles? Les autres paradigmes de l’histoire de la science sont-ils donc devenus obsolètes? Ou bien les données ne sont-elles plus des données? Et qu’est-ce que cela signifie pour les bibliothèques, les archives et les centres de documentation? Sont-ils concernés ou est-ce leurs données qui le sont? En résulte-t-il de nouvelles tâches pour ces institutions ou leur importance s’en trouvera-t-il amoindrie?

Dans cet article, l’auteur tente de cerner ces questions et d’y répondre. Il le fait en discutant de trois types de données qui, malgré leurs différences, ont quelques points communs qui les relient d’une certaine manière, à savoir: big data, linked open data et research data (c.à.d. de grandes quantités de données ouvertes et reliées entre elles ainsi que des données de recherche). Ce triptyque d’initiatives de traitement des données répond d’ores et déjà à l’une des questions formulées ci-dessus et montre que les données ne sont plus tout à fait des données. Les sciences de l’information et toutes les institutions qui y sont liées se trouvent donc face à un défi: maîtriser ces données et les tâches qu’elles induisent.