von Markus Lauber, Historiker und Datenanalyst
Der Begriff Big Data bezieht sich auf eine neue Methode der Datenspeicherung und -verarbeitung, die seit den 2000er Jahren von US-Firmen wie Amazon, Google und Facebook als Antwort auf die Herausforderung exponentiell anwachsender Datenmengen entwickelt wurde – Mengen, die wegen abgeflachter Zunahme der Leistungsfähigkeit von Computern in Echtzeit verarbeitet werden sollten.
Mit anderen Worten: Die bisherigen Innovationen in der Informationstechnologie konnten im Hinblick auf Kosten und Leistungen mit den Anforderungen nicht mehr Schritt halten, und als Lösung wurde entwickelt, was man heutzutage Big Data nennt.
Das Grundprinzip
Das Prinzip von Big Data besteht in der Verteilung der Datenhaltung auf beliebig viele einzelne Rechner, die von Komponenten handelsüblicher PCs bis hin zu großen Servern reichen können.
Neben der Speicherung ist auch die Verarbeitung der Daten verteilt. Jeder Rechner bekommt seine Aufgabe zugewiesen, arbeitet diese unabhängig von den anderen ab und meldet das Ergebnis an einen koordinierenden Server.
Die Verarbeitung kann die Festplatte und speziell für Anwendungen mit hohen Geschwindigkeiten auch den schnelleren Hauptspeicher nutzen.
Entscheidend ist die fast beliebige Erweiterung (Skalierbarkeit) zu vertretbaren Kosten bei gleichzeitig hoher Sicherheit durch mehrere regional verteilte Kopien der Daten. Jede Information liegt auf 3-5 Rechnern, und sollte einer hiervon ausfallen, wird die Information auf einen neuen Rechner geschrieben. Dadurch entfallen teure zusätzliche Backups, und zugleich stehen mehr Einheiten für Berechnungen bereit.
Open Source und Kapital
Für die Entwicklung der Software haben sich die Firmen dessen bedient, was man Open Source nennt. Es wird freie, zunächst unentgeltliche Software entwickelt, deren Weiterentwicklung der Allgemeinheit zur Verfügung gestellt wird. Die Produktion von Big-Data-Software wird heute u.a. von der Apache Foundation (1999 gegründet) betrieben, die Geld von Großspendern aus dem Silicon Valley erhält.
So können Firmen bei der Entwicklung kooperieren, ohne Probleme mit dem Kartellrecht zu bekommen, und frei- und bereitwillige Kooperation und Anerkennungswettbewerbe nutzen. Um aus der Masse verfügbarer Big Data Softwaregeschäfte zu machen, ist erheblicher Kapitaleinsatz erforderlich, so dass klassische Mechanismen keineswegs außer Kraft gesetzt sind – Volumen und Reichweite brauchen weiterhin Kapital.
Alles ist speicherbar
Als die Berichte aus den Snowden-Enthüllungen kamen, dass der Geheimdienst Government Communications Headquarters (GCHQ) mutmaßlich den gesamten Internetverkehr, der über Großbritannien läuft, für 72 Stunden zur weiteren Auswertung speichert, war weniger verwunderlich, dass Geheimdienste speichern, sondern vielmehr, dass hierfür tatsächlich eine derart große Menge an Ressourcen eingesetzt wurde.
Hieran wird eine weitere Charakteristik von Big-Data-Systemen deutlich: Auf der untersten Stufe kann jede Art digitaler Information in einer Verzeichnisstruktur abgelegt werden – egal ob Text, Audio, Video oder Dokumente. Oft ist die Rede davon, dass diese Dateien unstrukturiert seien. In der Praxis sind sie jedoch zumeist semi-strukturiert, das heißt: Zumindest bei der Ablage folgen sie einem System, das vorab geplant wurde und die spätere Auswertung ermöglicht.
Ein Glied in der Kette
Die Verarbeitung und Speicherung von Daten ist nur ein Glied in einer Kette von Technologien. Am Ende steht eine große Zahl von Sensoren, Kameras, von Texteingaben etwa über Chats und E-Mails, von Informationen in Fitnesstrackern sowie von GPS-Daten in Mobiltelefonen usw. All diese Informationen werden in Big-Data-Systemen abgelegt.
Aus der Auswertung werden Schlussfolgerungen gezogen und Entscheidungen getroffen, in deren Folge wieder eine wachsende Zahl (teil-)automatisierter Interaktionen steht. Das kann gehen von einer automatischen Benachrichtigung, einem Report, einer Aktion eines selbstfahrenden Autos, einer Warenlieferung bis hin zu zivilen oder militärischen Drohneneinsätzen oder einem Produkt aus dem 3D-Drucker.
Sozialversicherungsnummern
Entscheidend für die Auswertung von Datenbeständen ist die Verknüpfung über eindeutige Schlüssel, wie etwa die lebenslang gültige Sozialversicherungs-, die Mobilfunk- oder die Kontonummer. Kombinierte Informationen aus Nummern sowie Bewegungsmuster, Kontostand, Gesundheit und politischen Einstellungen ergeben in ihrem Ensemble ein genaueres Bild und nähern sich einer komplexen Wirklichkeit an.
Hier gibt es eine Differenz zu eineindeutig logischen Gesetzmäßigkeiten (wenn x, dann y), denn viele Big-Data-Anwendungen wie das Kreditausfall-Scoring kommen auch ohne hundertprozentige Präzision aus. Oft reicht es bereits aus, deutlich besser zu sein als der Zufall. Es handelt sich nicht um Vorhersagen im Sinne einer Glaskugel, sondern um Grade von Wahrscheinlichkeit, die sich der Wirklichkeit annähern.
Das funktioniert besonders gut auf geschlossenen Plattformen wie Netflix oder Apple Music, bei denen alle Interaktionen intern ablaufen und direkt beobachtbar sind, so dass die Reaktion wie etwa der Vorschlag neuer Musik unmittelbar dort erfolgen kann. Dies ist ein Grund dafür, dass große Digitalkonzerne wie Apple, Facebook, Amazon und Microsoft daran interessiert sind, möglichst hegemoniale digitale Ökosysteme aufzubauen, und es einen starken Wettbewerb darum gibt, wer bei der erwarteten Verlagerung in die Cloud („some one else‘s computer“) vorne dabei ist.
Auch fortgeschrittene Algorithmen brauchen vergangene Muster und Erfahrungen, um zu lernen. Das bedeutet, dass sie wenig geeignet sind, extrem seltene oder unvorhergesehene Ereignisse vorherzusagen („Black Swan“).
Gesellschaftliche Einbindung und Bedingtheit
Der Einsatz dieser Technologien kann auf vielen Feldern stattfinden. Neben der offensichtlichen Frage der staatlichen oder privaten Überwachung eröffnen sich völlig neue Möglichkeiten der Erfassung und damit potentiellen Beeinflussung der Wirklichkeit.
Staumeldungen sind eine bereits real genutzte Anwendung. Ein weiteres Feld ist die medizinische Forschung, der eine unendlich größere Zahl an Informationen zur Verfügung stehen könnte, um Zusammenhänge zwischen Krankheiten, Medikamenten und Behandlungen zu erforschen. Mit DKMS gibt es einen Verbund extrem persönlicher Daten, der für Leukämie Heilungschancen zur Verfügung stellt, die früher undenkbar waren.
Es stellt sich dabei die Frage, welche Daten welcher Institution zur Verfügung stehen sollen. In Norwegen sind Steuerinformationen öffentlich einsehbar. Will man sie digital zugänglich machen? Würde dies Steuervermeidung reduzieren? Würden staatliche Zugriffe auf Informationen beim Empfang von Sozialhilfe das Tor für Repressionen öffnen?
Das Beispiel Uber
Ein weiteres Beispiel ist der Fahrdienst Uber, der zwar kein revolutionär neues Geschäft anbietet, aber GPS-Sensorik, Datenbanken, Kommunikationsnetze und mobile Endgeräte so verbindet, dass Effizienzreserven gehoben werden können, indem sich Menschen als Fahrer zur Verfügung stellen, die es sonst nicht täten.
Uber reagiert auf bislang ungedeckten gesellschaftlichen Bedarf, etwa nach Taxidiensten in Gegenden, wo bisher kein hinreichendes Angebot bestand, z.B. in Teilen Chicagos. Wenig überraschend operiert Uber mit dem Ziel der Gewinnmaximierung.
Uber behauptet von sich, die Kosten der Vermittlung radikal zu senken und dabei Komfort und Transparenz zu erhöhen. Auf der Schattenseite können jedoch eine Erosion von Arbeitsbedingungen, eine Verdrängung des Taxigewerbes sowie eine massive Zentralisierung bei gleichzeitiger Abschiebung von Verantwortung auf die neuen Selbständigen stehen.
Es handelt sich um ein gesellschaftlich umkämpftes Feld. In der Schweiz und in Österreich müssen Uber-Fahrer eine Mietwagenlizenz haben. Prozesse in den USA prüfen, ob Uber-Fahrer nicht als scheinselbständige Uber-Mitarbeiter zu betrachten sind. Die Frage lautet, ob Steuervermeidung und Sozialversicherungsbetrug zu unterbinden wären, indem Uber dazu verpflichtet würde, Angaben mit staatlichen Stellen (anonymisiert) zu teilen.
Wohin geht die Reise?
Fraglich ist, inwieweit sich technische Entwicklung gesellschaftlich planen lässt und wo mit einem bestimmten Reifegrad an Technologie die geschäftliche Innovation naturwüchsig ohne gesellschaftliche Planung stattfindet und vorher Getrenntes zusammenfügt.
Im Fall der Amazon Web Services (AWS) wurden Serveranwendungen zunächst für das eigene Geschäft gebaut, bis Amazon erkannte, dass genau solche Serveranwendungen leicht zu standardisieren und auch weltweit an Dritte zu verkaufen sind.
Der Vergleich zwischen Tesla, das neue Antriebe mit Informationstechnologie verbindet, und VW, das vor seinem technologischen Desaster „Dieselgate“ steht, mag als weitere Illustration für künftige Entwicklungen dienen.
Skalierbarkeit und Universalität sind es, die die Schlagkraft von Tesla oder Amazon ausmachen. Big Data liefert hierzu die informationstechnische Basis.
Für fortschrittliche Kräfte der Politik stellen die Entwicklungen eine große Herausforderung für Programmatik und Praxis dar.