„Big Data“

Die schnüffelnden Supercomputer

Von Peter Welchering
26.06.2012
, 12:00
Was fängt man mit den neuen Superrechnern an? Ein Einsatzbereich sind Simulationsaufgaben im Marketing. Man könnte auch vom Ausforschen der sogenannten sozialen Netzwerke wie Twitter oder Facebook sprechen.
ANZEIGE

Das Leibniz-Rechenzentrum in Garching bei München belegt mit dem Super-Muc genannten Zahlenfresser den vierten Platz auf der sogenannten Top-500-Liste, das Forschungszentrum Jülich belegt mit Juqueen den achten Platz. Aber was fängt man mit den neuen Superrechnern an? Ein Einsatzbereich von Supercomputern sind Simulationsaufgaben im Marketing - man könnte auch vom Ausforschen der sogenannten sozialen Netzwerke wie Twitter oder Facebook sprechen.

Denn eine Versicherung lässt beispielsweise täglich zwölf Terabyte Daten, die von den Nutzern auf Twitter als Kurznachrichten erzeugt werden sowie weitere 1,5 Exabyte solcher Daten von Facebook auswerten. Dabei werden zunächst Nachrichteninhalte beispielsweise über die Geburt eines Kindes und Bilder der Neugeborenen gesucht, die Eltern identifiziert und ihr - teilweise etwas länger zurückliegendes - Kommunikationsverhalten in den entsprechenden Netzwerken auf Muster hin untersucht. Aufwendig entwickelte Simulationsalgorithmen berechnen dann ein auf bestimmten Werten der Person basierendes Basisverhalten. Ergibt diese Verhaltenssimulation, dass die auf Sicherheit bedachten Eltern eines Neugeborenen in der Vergangenheit in ähnlichen Entscheidungssituationen „versicherungsaffin“ gehandelt haben, schickt die Versicherung ihnen ein Angebot über eine Ausbildungsversicherung für das neugeborene Kind.

ANZEIGE

Als versicherungsaffin gilt, wer in einer vergleichbaren Lage über den Abschluss einer Versicherung diskutiert hat oder sogar einen Vertrag abgeschlossen hat. Das kann beispielsweise das auf Facebook geäußerte Interesse an einer Kreditausfallversicherung nach einem Hauskauf sein. Mehr als 80 Prozent dieser so bearbeiteten Angebote sollen unbestätigten internen Untersuchungen der Versicherungswirtschaft zufolge zum Vertragsabschluss führen.

Erstaunliche Prognosequalität

Der Verhaltenssimulation liegen Gleichungssysteme mit bis zu 70000 linearen Gleichungen zugrunde. Das sind noch recht grobe Modelle, die aber eine schon erstaunliche Prognosequalität erbracht haben. Noch sind die hier verwendeten klassischen Methoden der Business Intelligence mit Mustererkennung und Expertensystemen noch nicht vollständig in die Big-Data-Analyse genannte Auswertung und Berechnung personenorientierter Daten aus sozialen Netzen integriert. Doch die Arbeit daran macht erhebliche Fortschritte.

ANZEIGE

Verhaltenssimulationen sind auch nicht auf Daten aus solchen Netzwerken beschränkt. In einigen Versuchen werten Datenroboter für Pilotverhaltensanalysen die Daten von bis zu sechs Milliarden Webservern aus. IT-Sicherheitsunternehmen sind schon bei einem Standard von 15 bis 17 Milliarden Webservern, deren Daten ständig ausgewertet werden. Die Crawler genannte Software liefert die Daten an ein Auswertungsrechenzentrum, auf dessen Servern sie klassifiziert werden.

Üblicherweise arbeiten Sicherheitsunternehmen hier mit denselben Techniken wie Suchmaschinen und benötigen ein Klassifikationsschema mit ungefähr 70 Kategorien. Versicherungen oder Banken, die diese Daten für eine Verhaltenssimulation weiterverwenden wollen, reichen derartig grobe Klassifikationsschemata nicht. Sie klassifizieren in bis zu 450 Kategorien. Das lässt sich mit verteilter Datentechnik auf der Basis moderner Auswertungsnetzwerke wie Hadoop erledigen.

ANZEIGE

Supercomputer mit einer Leistung ab 1,5 Petaflops, das sind 1,5 Billiarden Rechenoperationen in der Sekunde, kommen dann bei der Berechnung der linearen Gleichungssysteme für die Verhaltenssimulation zum Einsatz. Dabei schaffen die schnellsten Rechner der Welt gegenwärtig ein Gleichungssystem von zehn Millionen Gleichungen mit den entsprechenden Unbekannten in 15 bis 30 Stunden. Höchstleistungsrechner mit einer durchschnittlichen Leistung von acht bis neun Petaflops benötigen ungefähr 24 Stunden dafür. Es gilt deshalb inzwischen als eine Art „Branchenstandard“, Gleichungssysteme mit bis zu 500000 Gleichungen in ungefähr einer Stunde von derartigen Maschinen berechnen zu lassen. Dementsprechend schneller können Gleichungssysteme für die Verhaltenssimulation mit ihren 50000 bis 70000 Gleichungen bearbeitet werden. Im industriellen Maßstab ist das zurzeit im Viertelstundentakt möglich. Deshalb liegen die Kosten für Simulationsrechnungen einzelner Zielpersonen im Augenblick noch relativ hoch. Mit den für das Jahr 2019 prognostizierten Exaflop-Systemen würden sich die Simulationskosten je Zielperson allerdings nur noch auf wenige Euro belaufen.

Quelle: F.A.Z.
  Zur Startseite
Verlagsangebot
Verlagsangebot
Werkzeugkoffer
Werkzeugkoffer im Test
Automarkt
Finden Sie Ihren Gebrauchtwagen mit Garantie
Wallboxen
Wallboxen im Test
Baufinanzierung
Erhalten Sie Ihren Bauzins in 3 Minuten
Englischkurs
Verbessern Sie Ihr Englisch
ANZEIGE