Kommentare Abstract
2026/1 Archivierung von Social Media

Werkstattbericht zum Stand der Social Media-Archivierung im Archiv der sozialen Demokratie

Kommentare Abstract

In seinem integrierten Webarchiv bewahrt das Archiv der sozialen Demokratie auch Social Media-Inhalte. Hierzu wurde ein neues Konzept entwickelt, das eine möglichst bruchfreie Nutzung und Auswertung auch im Verbund mit archivierten Webseiten ermöglicht. Aus technischer Sicht wurde ein Ansatz gewählt, der möglichst ressourcenschonend auf vorhandenen Tools aufsetzt.

Gemäß seinem Sammlungsprofil sichert das Archiv der sozialen Demokratie (AdsD) der Friedrich-Ebert-Stiftung die Unterlagen der deutschen Sozialdemokratie, der nationalen und internationalen Gewerkschaften, weiterer Umfeldorganisationen und exponierter Persönlichkeiten. Insofern war die Entscheidung zum Aufbau eines Webarchivs 1999 – zunächst für SPD-Seiten – naheliegend, präsentierten sich doch Politiker*innen und Parteien der Öffentlichkeit verstärkt auch auf ihren Internet-Auftritten. Zunehmend wurde die Sammlung umfangreicher und schnell auch differenzierter: Neben den Seiten von Parteien, ihren Gliederungen und zugehörigen Gruppierungen entstand eine Sammlung persönlicher Webauftritte, die der Personalisierung des Wahlkampfs Rechnung trugen. Die Entwicklung des Web 1.0 zum Web 2.0 wurde maßgeblich durch die Ablösung einseitiger Kommunikation zugunsten von Vernetzung und sozialer Interaktion vorangetrieben. Dennoch sind Webseiten immer auch zentrale Informationsangebote geblieben. Das AdsD hat diese Veränderung beobachtet und in seinem Sammlungsprofil 2011 einen stärkeren Schwerpunkt auf die Verbreiterung der Sammlung unter Einbeziehung von Gewerkschaften hierauf reagiert. Zugleich wurde die Sicherung persönlicher Webseiten von Politiker*innen eingestellt. Webseiten wurden Container multipler Inhalte, darunter auch von Social Media etwa in Form von Blogs. Gleichzeitig hat die Dominanz von auf geschlossenen Plattformen basierenden Diensten mit Facebook und Twitter zugenommen, weshalb 2018 der Entschluss zur Sicherung ausgewählter Twitter-Kanäle gefasst wurde. Da bereits Erfahrungen aus der Webarchivierung im Haus vorhanden waren, sollte eine inhouse-Lösung hierauf aufsetzen und somit zugleich den Grundstein zum Aufbau fachlicher Expertise in diesem Bereich legen. Diese Sicherung erfolgte bis zu einer Änderung der Geschäftsbedingungen 2023 über eine Schnittstelle. Insgesamt wurden 37 Twitter-Kanäle von 2008 bis 2023 gesichert. 

Während die Bedeutung sozialer Medien zur Meinungsbildung und Mobilisierung weiter angestiegen ist, zugleich jedoch durch den Bedeutungsrückgang von Twitter/X eine weitere Differenzierung der Angebote zu verzeichnen ist, hat das AdsD ein Konzept für ein integriertes Webarchiv entwickelt. Dieses Webarchiv soll alle Web-Objekte umfassen und maßgebliche Richtschnur für zukünftige Sammlungsentscheidungen sein. Web-Objekt soll als bewusst offen formulierter Sammelbegriff verschiedene Erscheinungsformen umfassen, die über das Netz frei zugänglich verbreitet werden. Damit stehen Webseiten neben Kommunikationsmedien wie plattformgebundenen Social Media, Blogs und Portalen zur Bereitstellung von spezifischen Inhalten wie Videos oder Fotos. Das Konzept basiert auf zwei Säulen: der Nutzung und der Archivierung. 

Aus der Nutzungsperspektive ist ein zentraler Zugang zu den verschiedenen Inhalten das Ziel, um einen gemeinsamen Suchraum zu schaffen. Verschiedene Web-Objekte sollen nicht mehr isoliert betrachtet, sondern auch miteinander in Bezug gesetzt werden können. Technisch ist dies durch eine Kombination der Softwares PyWayBack und SolrWayBack realisiert, die gewohntes Browsing gesicherter Webseiten und mächtige Suchanfragen mit Facettierungen und Auswertungen ermöglichen. Gerade aufgrund der lange zurückreichenden Webseitensammlungen bestehen weiterhin verschiedene Zugangsmöglichkeiten, die in den jeweiligen technischen Lösungen des Crawlings begründet liegen. Standardisierung und Zusammenführung sind daher wichtige Schritte auf dem Weg zu einem integrierten Webarchiv, die ebenso auf Social Media übertragen wurden. Diese Nutzer*innenperspektive wurde im Rahmen der Fortentwicklung der Anwendung des Konzepts der Designated Communities und der Significant Properties gemäß dem OAIS-Modell moduliert. Eine belastbare Basis von Nutzer*innen sowohl für Webseiten wie auch für Social Media gibt es im AdsD nach wie vor nicht. Angesichts des nachgelagerten zeitlichen Bezugsrahmens zeitgeschichtlicher Forschung ist damit auch erst in einigen Jahren zu rechnen. 

Die Entscheidung für ein integriertes Webarchiv ist zudem den technischen Rahmenbedingungen geschuldet. Aufgrund der Herausforderungen zur Sicherung und datentechnischen Aufbereitung können Ressourcen perspektivisch nicht für einzelne Social Media in beliebiger Menge bereitgestellt werden. Der Blick zurück lehrt vielmehr, mit welchem Aufwand der Abbau von technisch bedingten Datensilos einhergeht. Konkret ergibt sich hieraus die Notwendigkeit der Sicherung von Social Media im WARC-Standard.1 Als zweiter Weg ist eine möglichst automatisierte Konversion von einem anderen Ausgangsformat nach WARC ebenso zulässig. Diese Setzung entspricht der Feststellung oder Herbeiführung der (technischen) Archivfähigkeit – soweit dieser Vergleich angesichts der ungelösten Langzeitarchivierungsproblematik der in den WARC-Containern enthaltenen Dateiformate als zulässig erachtet werden kann.

Neben diesen beiden Paradigmen wurden schließlich die zu archivierenden Plattformen auf Grundlage einer Stichprobe identifiziert. Hierzu wurden die Social Media-Aktivitäten von zehn Hinterleger-Organisationen des AdsD ausgewertet. Die Organisationen reichen von internationalen gewerkschaftlichen Dachverbänden über SPD-Parteivorstand und Bundestagsfraktion, den Deutschen Gewerkschaftsbund, deutsche Einzelgewerkschaften hin zu zwei SPD-Landesverbänden. Somit sollten unterschiedliche Zielgruppen und Reichweiten der Kanäle berücksichtigt werden. Die Stichprobe hat zunächst eine Aufstellung der verwendeten Social Media-Plattformen vorgenommen. Redundanzen beim Ausspielen von Beiträgen auf verschiedenen Kanälen waren bereits im Zuge einer ersten Bestandsaufnahme nach dem Ende der Twitter-Archivierung festgestellt worden. Ergänzend wurden zwei Interviews mit Hinterleger-Organisationen zur jeweiligen Social Media-Strategie geführt. Daher wurden nunmehr Fragen nach den Inhalten und dem Nutzungsverhalten verfolgt sowie abschließend eine Reihe technischer Feststellung vor dem Hintergrund der oben beschriebenen Anforderungen. 

Im Ergebnis wurde Facebook als das am weitesten verbreitete und am stärksten genutzte Medium ausgemacht. Da Facebook nach dem Cambridge Analytica-Skandal den Zugang zu einer Schnittstelle massiv eingeschränkt hat, wurde die Entscheidung für Exporte durch die Hinterleger*innen getroffen. Diese können u.a. als HTML-Dateien technisch niedrigschwellig an das AdsD übergeben und durch den Einsatz der Software Webrecorder stark automatisiert nach WARC konvertiert werden. Nachteil dieses Vorgehens ist der Verzicht auf soziale Interaktionen durch andere Nutzer*innen – immerhin ein konstitutives Merkmal sozialer Medien. Erste Tests mit exportierten Facebook-Inhalten verliefen vielversprechend. Der Zugang im Webarchiv wurde bereits via PyWayback und SolrWayBack positiv getestet. Jeder Export soll in der Archivdatenbank als Verzeichnungseinheit mit Verweis auf Laufzeit und Übernahmedatum nachgewiesen werden, um eine rasche Auffindbarkeit zu gewährleisten.

Weiterhin ist TikTok eine relevante Plattform, auf der audio-visuelle Inhalte ausgespielt werden. Insofern entsprechen die Ergebnisse der Stichprobe der zunehmenden Bedeutung videobasierter Formate. Die Sicherung soll mittels des Crawling-Verfahrens (ebenfalls Webrecorder) erfolgen. Die hiermit verbundenen technischen Herausforderungen sind jedoch erheblich. Dies zeigt sich in Inkonsistenzen bei der Qualität der gecrawlten Inhalte. Daher werden parallel Instagram-Exporte getestet – um den Preis, dass auch hier Nutzer*inneninteraktionen analog zum Vorgehen bei Facebook außen vor bleiben. 

Dieses Vorgehen konfligiert mit den bisherigen Annahmen zu den erhaltenswerten Eigenschaften, die soziale Interaktion als wesentliches Element von Social Media begreifen. Es stellen sich zudem weitere Fragen zur Einbindung derartiger nach WARC konvertierter Exporte bzw. der geeigneten Größe eines WARC-Pakets für die Recherchemöglichkeiten in SolrWayBack. Inwieweit die technischen Probleme gelöst werden können, kann derzeit nicht abschließend beantwortet werden. Doch klar ist: Wenn sie es sind, werden andere kommen, die neben fachlichen Fragen zu klären sind.  

Weiterführende Literatur

  • Beatrice Cannelli: Archiving Social Media: A Comparative Study of the Practices, Obstacles, and Opportunities Related to the Development of Social Media Archives. London 2024, https://sas-space.sas.ac.uk/10023/1/BCannelli_PhDThesis%5BDecember2024%5D.pdf.

     

  • Paul Klimpel, Fabian Rack: Einschätzung der rechtlichen Rahmenbedingungen für die Archivierung von Social-Media-Inhalten im Archiv der sozialen Demokratie, in: Annabel Walz, Andreas Marquet (Hg.): Sicher sichern? Social Media-Archivierung aus rechtlicher Perspektive im Archiv der sozialen Demokratie. Bonn 2022, S. 15-48, URN: urn:nbn:de:bo133-2-21.

     

  • Andreas Marquet, Annabel Walz: Social Media-Archivierung aus institutioneller Perspektive, in: Geschichte auf Instagram und TikTok. Perspektiven auf Quellen und Praktiken. Hg. von Mia Berg, Andreas Lorenz und Kristin Oswald. Berlin/Boston 2025, S. 173-192, https://doi.org/10.1515/9783111360874-008.

     

  • Sara Day Thomson: Preserving Social Media. DPC Technology Watch Report 16-01. 2016, DOI: http://dx.doi.org/10.7207/twr16-01 https://www.dpconline.org/docs/technology-watch-reports/1486-twr16-01/file

     

  • Eveline Vlassenroot, Sally Chambers, Sven Lieber, Alejandra Michel, Friedel Geeraert, Jessica Pranger, Julie Birkholz, Peter Mechant: Web-archiving and social media: an exploratory analysis, in: International Journal of Digital Humanities (2021) 2:107–128, https://doi.org/10.1007/s42803-021-00036-1.
Avatar

Andreas Marquet

Kurze Biographie 

  • Seit 2025 stellvertretender Leiter des Archivs der sozialen Demokratie (AdsD) der Friedrich-Ebert-Stiftung, Bonn und Leiter des Referats Bibliothek, Magazin und Digitale Dienste
  • 2021-2025 Leiter des Referats Infrastrukturen und digitale Grundsatzfragen im AdsD
  • 2019-2020 Leiter der Arbeitsstelle digitale Transformation im AdsD
  • 2014-2019 Archivar im AdsD
  • 2012-2014 Archivar im Walter Jacob Archiv der Walter A. Berendsohn Forschungsstelle für deutsche Exilliteratur, Hamburg

Ausbildung

  • 2019 M.LIS Master in Library and Information Science, Technische Hochschule Köln
  • 2015 Promotion Dr. phil. Universität Mannheim
  • 2008 M.A. Wirtschafts- und Sozialgeschichte / Neuere Geschichte und Politische Wissenschaft an der Universität Mannheim
  • 1 WARC steht für Web ARChive und bezeichnet einen ISO-Standard (28500:2017), der weltweit zur Archivierung von Webseiten angewandt wird. WARC ist ein Container-Format, das in verschiedenen Record-Typen die Inhlatsinformationen sowie den Prozess dokumentierende Metadaten beinhaltet. WARC-Dateien werden mit Webcrawling- oder -recording-Software erzeugt und benötigen spezielle Software zur Anzeige. Vgl. Konstanze Weimer und Astrid Schoger, Das Dateiformat WARC für die Webarchivierung (nestor Thema 15), https://nbn-resolving.de/urn:nbn:de:0008-2021042614.

Abstract

Mit dem Konzept eines integrierten Webarchivs hat das Archiv der sozialen Demokratie die Sicherung von Social Media-Inhalten aus Nutzungs- und Archivierungssicht neu ausgerichtet. Dieses beruht auf der Prämisse, die Inhalte in Verbindung mit weiteren Kanälen, Plattformen und Webseiten nutzen zu können. Auch aus technischer Sicht sollen Datensilos vermieden und vorhandene Tools nachgenutzt werden. Derzeit befindet sich der Ansatz in der Testphase und wird nötigenfalls angepasst.  

Avec le concept d'archives web intégrées, les Archives de la démocratie sociale ont repensé la sauvegarde des contenus des réseaux sociaux du point de vue de leur utilisation et de leur archivage. Ce concept repose sur l'idée de pouvoir exploiter ces contenus en lien avec d'autres canaux, plateformes et sites web. D'un point de vue technique également, il s'agit de prévenir la création de silos de données et de réutiliser les outils existants. Cette approche est actuellement en cours de test et sera adaptée si nécessaire.