Digitale Speicherung

Dicke Daten

Von Ulf von Rauchhaupt
06.10.2012
, 19:23
Die Festplatten der Welt speichern immer mehr ab. Das ist ein Problem und eine Verheißung zugleich. Und eine ganz neue Quelle für wissenschaftliche Erkenntnis.
ANZEIGE

W as kommt nach dem Terabyte? Kunden von Elektronikmärkten mag das noch nicht kümmern. In Rechenzentren von Forschungsinstituten aber denken Mitarbeiter bei der Anschaffung neuer Festplatten längst in Petabyte (tausend Terabyte). Schon Ende 2003, dem Jahr bevor Facebook online ging, ließ sich der Weltbestand digital gespeicherter Daten nur noch in Exabyte (Millionen Terabyte) messen. Heute sind es einige Zettabyte (Milliarden Terabyte), von denen 90 Prozent erst in den letzten beiden Jahren erzeugt wurden.

Die Wissenschaft ist längst nicht mehr die wichtigste Quelle. So liefern die gewaltigen Detektoren des Large Hadron Colliders (LHC), des großen Teilchenbeschleunigers am Forschungszentrum Cern, im Schnitt 42 Terabyte täglich, während sich Facebook am Tag rund 500 Terabyte neuer Daten einverleibt. Schuld an dieser Flut sind nicht nur die Computer und das Internet, über das der digitale Segen verteilt, vervielfältigt und zu Neuem, seinerseits Speicherplatzbedürftigem verknüpft werden kann. Es tragen auch immer mehr Sensoren dazu bei, deren Output sich elektronisch aufzeichnen und weiterverarbeiten lässt: medizinische Diagnosegeräte, Wetterstationen, Überwachungskameras - und Handys.

ANZEIGE

„Big Data“

“Jeder, der ein Smartphone mit sich führt, ist ein menschlicher Sensor“, sagte der amerikanische Medienproduzent Rick Smolan vergangene Woche in London. Dort wurde das Projekt „The Human Face of Big Data“ vorgestellt, bei dem Smolan mit dem Speichertechnikkonzern EMC als Hauptsponsor, auf potentiell segensreichen Auswirkung des Datenzeitalters aufmerksam machen will: in Medizin, Umweltschutz, Entwicklungshilfe. Das Schlagwort „Big Data“ zeugt vom Selbstbewusstsein des Wirtschaftszweiges, der mittlerweile entweder von der Datenflut selbst lebt, oder Technologien zur seiner Bewältigung anbietet.

Datenschutzfragen mag es ja geben. Aber mittlerweile hat Facebook eine Milliarde Nutzer, von denen 600 Millionen mobile Geräte verwenden. Und während „Big Government“ oder „Big Business“ Schmähbegriffe sind, die man sich gerade wieder im amerikanischen Wahlkampf um die Ohren haut, wird mit „Big Data“ fast schon ehrfürchtig etwas beschrieben, was einem Naturphänomen gleicht: Es kommt so oder so, ja es ist schon da. Nun gilt es, zumindest damit klarzukommen, es nach Möglichkeit sogar produktiv zu nutzen. Dabei lassen sich wirtschaftliche und kulturelle Motive auch auf neue Art und Weise kombinieren, wie etwa beim Crowdsourcing.

ANZEIGE

Fehlende Einheit in Files

Allerdings, die dafür nötigen Datenmassen wollen erst verarbeitet sein. Mit der Anschaffung von immer mehr Speicherplatz ist es nicht getan. Es ist nicht allein die Menge, welche Daten „big“ macht, sondern auch die Geschwindigkeit ihrer Entstehung sowie ihre Struktur, oder besser: deren Fehlen.

Schon in geringen Mengen können unstrukturierte Daten in Wirtschaft und Verwaltung zu einem großen Problem werden. Im Papierzeitalter ließen sich Vereinbarungen über Preise oder Liefertermine bis hin zu Verträgen und Konstruktionsunterlagen einfach zusammen abheften. Heute liegt dergleichen oft in einem Sammelsurium aus E-Mails, PDFs, Text-, Präsentations- oder Grafik-Files vor. Herkömmliche Datenbanken haben mit dieser Vielfalt enorme Probleme. Sind es aber nicht die eigenen Daten, dann bietet gerade mangelnde Einförmigkeit die Chance, daraus Nützliches über ihre Quelle herauszufinden. Über das Konsumverhalten von Verbrauchern etwa. Die statistischen Verfahren dafür - vom einfachen Korrelieren bis zum probabilistischen Schlussfolgern - stammen indes aus der Wissenschaft.

ANZEIGE

Strukturierte Speicherung

Auch für Forscher ist „Big Data“ heute ein großes Thema, das einerseits Hoffnungen weckt, andererseits Kopfschmerzen bereitet, wenn auch nicht immer die gleichen wie im kommerziellen Sektor. „In der Wissenschaft sind Daten viel mehr strukturiert“, erklärt Alexander Szalay von der Johns Hopkins University in Baltimore. Der Astrophysiker ist seit geraumer Zeit mit großen Datensätzen über die Galaxienverteilung im Universum befasst und hielt vorvergangene Woche den Einführungsvortrag auf einem Big-Data-Symposion am Karlsruher Institut für Technologie. Dort hat einer der wichtigsten Knotenpunkte zur Verarbeitung der LHC-Daten seinen Sitz, und dort befasst sich ein Projekt namens „Large Scale Data Management and Analysis“ mit den Datennöten verschiedenster Wissenschaften.

Schließlich haben nicht nur Teilchenphysiker mit abnormen Datenmengen zu tun. Noch stürmischer verläuft die Entwicklung derzeit in den Lebenswissenschaften. Etwa 10 000 Genome sind heute sequenziert, das heißt, die Abfolge der Basenpaare im DNA-Erbmolekül, in der die Erbinformation eines Organismus codiert ist, konnte weitgehend ermittelt werden. Das ergibt eine Datenmenge von fünf Petabyte, bescheiden gegenüber den 22 Petabyte, welche die Physiker allein am LHC bislang gesammelt haben. Die Dynamik lässt sich jedoch an dem rapiden Kostenverfall ablesen. Ein menschliches Genom zu sequenzieren kostete vor fünf Jahren fast neun Millionen Dollar. Im Januar 2012 waren es nur noch 7666 Dollar, und der Preis sinkt weiter. „Bald wird jeder Patient im Krankenhaus routinemäßig sequenziert werden, und wahrscheinlich nicht nur einmal“, sagt Alex Szalay. „Da kommt pro Klinik schnell ein Petabyte im Jahr zusammen.“

Daten müssen interpretierbar sein

Allerdings sind Daten per se noch keine Informationen. Auch DNA-Sequenzen nicht, obwohl die schiefe Metapher der „Entschlüsslung“ es andeutet. Daten werden erst zu Informationen, wenn sie interpretiert oder zumindest interpretierbar sind. Bei klassischen Analyseverfahren aber steigt der Rechenaufwand oft überproportional mit der Menge. Da diese aber, etwa bei den DNA-Sequenzen, gegenwärtig rascher wächst als die Leistungsfähigkeit der Computer, auf denen die Auswertungsalgorithmen laufen, kommen die Wissenschaftler mit dem Analysieren nicht mehr hinterher. „Da helfen nur neue Algorithmen“, sagt Szalay, „neue Rechenstrategien und neue Computerarchitekturen.“

ANZEIGE

Trotzdem gibt es schon jetzt spektakuläre Erfolge, wie die vor vier Wochen veröffentlichten Ergebnisse des „Encode“-Projektes, wonach das Gros der vermeintlichen „Müll-DNA“ sehr wohl eine Funktion hat. „Dafür wurden Daten von Hunderten von Individuen miteinander korrelliert“, sagt Szalay. Aber sind Korrelationen denn nicht zu wenig? Geht es in der Wissenschaft denn nicht darum, Kausalitäten zu finden, indem man ein Modell, eine Hypothese, über kausale Zusammenhänge aufstellt und dann testet?

Neue Wege mit Datenanalyse

Gerade „Big Data“ macht nun eine ganz andere Herangehensweise möglich. Bei einzelnen Messwerten bedarf es eines Modells, bei dem man dann prüfen kann, ob die Werte passen oder nicht. Aus einer großen Menge an Daten aber können Korrelationen rein statistisch Strukturen und Zusammenhänge sichtbar machen, über die sich der Forscher vorher keine Hypothese hatte zurechtlegen müssen.

“Naturwissenschaft ist immer mehr datengetrieben und immer weniger hypothesengetrieben“, sagt Szalay. Für Astronomen ist das nicht ganz so neu wie für Biologen. „Astronomen sind an diese Art zu denken gewöhnt“, sagt er. „Sie konnten im 17. Jahrhundert eine Supernova entdecken, ohne etwas über Kernphysik zu wissen, die einem sagt, dass es so was wie eine Supernova geben kann. Und jetzt beginnt die Biologie auch in diese Richtung zu gehen.“

ANZEIGE

Szalay sieht mit „Big Data“ sogar eine wissenschaftliche Revolution anbrechen, die neben Theorie, Experiment und Computersimulation der Naturwissenschaft nun eine vierte Säule gibt. Bevor Antoni van Leeuwenhoek, der Entdecker des Mikroskops, 1675 sein Instrument ausreichend entwickelt hatten, sagt Szalay, habe er auch keine Hypothese über das gehabt, was er da sehen würde: einzellige Tiere. „Heute müssen wir Mikroskope und Teleskope für Daten bauen. Damit werden wir neue Korrelationen entdecken und neue Tatsachen.“

Quelle: F.A.S.
Autorenporträt / Rauchhaupt, Ulf von (UvR)
Ulf von Rauchhaupt
Redakteur im Ressort „Wissenschaft“ der Frankfurter Allgemeinen Sonntagszeitung.
  Zur Startseite
Verlagsangebot
Verlagsangebot
Zertifikate
Ihre Weiterbildung in der Organisations- psychologie
Sprachkurse
Lernen Sie Italienisch
Stellenmarkt
Jobs für Fach- und Führungskräfte finden
ANZEIGE