Suche
  • IoT, Big Data, Künstliche Intelligenz
  • Digitalisierung hinterfragt
Suche Menü

David Kriesel – SpiegelMining und die Gefahren der Vorratsdatenspeicherung

Auf dem 33. Chaos Communication Congress (33C3) hat ein Beitrag für besondere Aufmerksamkeit gesorgt.

Der Blogger und Data Scientist David Kriesel hat in seinem unterhaltsamen Vortrag „SpiegelMining“ darüber berichtet, wie er über einen Zeitraum von mehr als zwei Jahren Artikel von Spiegel Online heruntergeladen und analysiert hat. Daraus ergeben sich interessante Erkenntnisse über die Arbeitsweise des Spiegel, die Möglichkeiten zur Auswertung von Metadaten und deren Folgen, sowie über Mechanismen der öffentlichen Meinungsbildung.

Wie ist David vorgegangen?

Ein Script, welches auf Davids Servern läuft, prüft in minütlichen Intervallen ob es auf der Spiegel Website neue Artikel gibt. Wenn ja, werden diese direkt nach der Veröffentlichung heruntergeladen und auf dem eigenem Server in Rohform (HTML) gespeichert. Das hat den großen Vorteil, dass die Artikel in dieser Form noch nicht weiter durch die Redaktion editiert wurden.

Anschließend liest er verschiedene Artikelmerkmale, wie das Veröffentlichungsdatum, Autorennamen, Schlagworte und Textlänge aus und speichert diese ebenfalls. Diese Merkmale bezeichnet David als „Features“. Im Grunde entsteht daraus ein Satz an Metadaten.

Diese Metadaten verwendet David dann in unterschiedlichen Analysen, um eigene Fragestellungen zu beantworten.

Zum Beispiel:

  • Welche Rubriken haben den meisten Content?
    Politik, Panorama und Sport machen die Hälfte aller Artikel aus
  • Wie viele Artikel erscheinen auf Spiegel Online?
    ca. 700 Artikel pro Woche, also durchschnittlich 100 am Tag
  • Wann werden die meisten Artikel veröffentlicht?
    Am Wochenende und Weihnachten gibt es weniger neuer Content. Mitarbeiter aus dem Kultur-Resort fangen anscheinend später an und gehen auch früher nach Hause.
  • Gibt es Rubriken die wachsen oder schrumpfen?
    Die Anzahl der Artikel in Politik und Panorama bleibt konstant, während Wissenschaft und Uni-Spiegel zum Beispiel abnehmen.
  • Sind die Artikel in den Rubriken unterschiedlich lang?
    Die Artikel in den Bereichen Politik und Panorama sind wesentlich kürzer als in den anderen Rubriken. Außerdem  ist die Anzahl an Agenturmeldungen hier besonders hoch.
  • Gibt es Auffälligkeiten bei den Möglichkeiten Artikel zu kommentieren?
    Die Anzahl der kommentierbaren Artikel nahm stark ab, während die Zahl der nicht kommentierbaren Artikel zunahm. Themen wie Sport, Streik (Bahn, Lufthansa), Russland und Ukraine-Konflikt dürfen kommentiert werden, während Artikel zum Nah-Ost-Konflikt, Justiz, Kriminalität, NSU, Flüchtlinge, Asylrecht, Frankreich und islamistischem Terror nicht kommentiert werden dürfen.


Am Beispiel dieser Datensammlung demonstriert David Kriesel die möglichen Gefahren der Vorratsdatenspeicherung.


Eine seiner wichtigsten Aussagen besteht darin, dass jeder der Daten veröffentlicht, damit auch immer die Sammlung von Metainformationen ermöglicht und Überwachungsinstitutionen direkt in die Hände spielt. Derartige Daten können mit Algorithmen analysiert werden und ermöglichen somit Schlussfolgerungen über ihren Urheber.

Anhand von Browserverläufen, einer Liste häufiger Kontaktpersonen und angesehenen Produkten lassen sich zum Beispiel Aussagen über die sexuelle Orientierung, politische Einstellung, finanzielle Situation und gesundheitliche Verfassung eines jeden ableiten.

David mahnt daher, dass die Vorratsdatenspeicherung vielleicht dabei helfen kann Verbrechen zu verhindern und diese aufzuklären, aber dass niemand weiß, wer in Zukunft an die Macht kommt und wie diese Partei diese Informationen dann nutzen wird. Die Möglichkeiten zur Verarbeitung von Metadaten sind auf jeden Fall gegeben.

In seinem Vortrag weist er ebenfalls darauf hin, dass die bei Spiegel gemachten Beobachtungen wahrscheinlich auch bei anderen Online-Magazinen an der Tagesordnung sind. Eine ähnliche Langzeitanalyse für die großen Tagesmedien wäre hochinteressant und würde wichtige Erkenntnisse über meinungsbildende Prozesse in Deutschland ermöglichen.

An dieser Stelle einen großen Dank an David Kriesel für seine hervorragende Pionierarbeit. Es wäre wünschenswert, dass ähnliche Projekte als Open Source einer breiten Masse zugänglich werden und daraus eine Art Medien-Watch entsteht.

Vielleicht wäre das eine Aufgabe für Marco Maas und seine Mitstreiter?

Link zum Vortrag und den Slides

 

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.