Maschinelles Lernen

Gefährlicher Überoptimismus

Von Hinnerk Feldwisch-Drentrup
06.08.2022
, 19:09
Wie gut sind sie wirklich? Die Leistung von Methoden der „künstlichen Intelligenz“ wird oft überschätzt, sagen Forscher der US-amerikanischen Universität in Princeton.
Wissenschaftler achten beim maschinellen Lernen oft nicht auf wichtige Details – hierdurch sind Ergebnisse künstlich gut und es kommt zu „wucherndem Überoptimismus“, sagen US-Forscher.
ANZEIGE

Ansätze des maschinellen Lernens sind in der Praxis vielfach erfolgreich, sei es in der Routenplanung, Spracherkennung oder Bildverarbeitung. Doch im Bereich der Forschung erkennen Wissenschaftler der Universität Princeton eine Krise: Die Ergebnisse vieler Studien seien nicht reproduzierbar. In einem aktuellen Preprint führen sie 329 Fachartikel aus diversen Disziplinen an, aus denen Probleme bekannt sind – Forschung zur Neuropsychiatrie, Genomik, IT-Sicherheit, Toxikologie oder Bioinformatik. „Offenbar entdecken alle Felder die Fehler unabhängig voneinander für sich“, sagt der Informatiker Sayash Kapoor aus Princeton.

Auf die Problematik aufmerksam seien sie geworden, als sie sich Ansätze zur Vorhersage von Bürgerkriegen näher angesehen haben, sagt Kapoor – hierzu gab es in den vergangenen Jahren einige Studien. All jene, die für die Vorhersagen bessere Ergebnisse als Ansätze der klassischen Statistik erzielt haben wollten, haben erhebliche Reproduzierbarkeitsprobleme aufgewiesen.

ANZEIGE

Bei diesen Verfahren des maschinellen Lernens wird ein Trainingsdatensatz – etwa mit Angaben zur wirtschaftlichen Entwicklung oder sozialen Verhältnissen vor Bürgerkriegssituationen – genutzt, um automatisiert Informationen zu identifizieren, die einen prädiktiven Wert haben. Anschließend wird der trainierte Algorithmus auf einen Testdatensatz mit und ohne Bürgerkriegszeiten angewandt, um seine Vorhersagequalität zu berechnen. Dabei ist es von zentraler Bedeutung, dass die für das Training verwendeten Daten nicht bereits Informationen aus den Testdaten oder andere Informationen enthalten haben, die eine überhöhte Vorhersagequalität ergeben würden – beim Bürgerkriegsbeispiel sollten etwa nicht Daten desselben Zeitraums in den beiden Datensätzen enthalten sein.

Fast alle Fehler führen zur Überschätzung der Leistung

Kapoor hat vergangene Woche zusammen mit seinem Kollegen Arvind Narayanan zur Thematik der fehlenden Reproduzierbarkeit einen Onlineworkshop mit mehr als 1600 Teilnehmern veranstaltet. Sein Lieblingsbeispiel sei ein Algorithmus, der Bluthochdruck bei Klinikpatienten erkennen sollte, sagt Kapoor. Diesem seien auch Informationen zur Medikation der Patienten verfügbar gewesen – der Algorithmus habe am Ende einfach dadurch den Bluthochdruck erkannt, dass die Patienten Blutdrucksenker nehmen. Hier sprechen Forscher von einer „Daten-Leckage“: wenn einem Algorithmus Informationen zur Verfügung gestellt werden, die dessen Vorhersagekraft künstlich verbessern.

ANZEIGE

Während Fehler bei Anwendungen, die bereits breit genutzt werden, zumindest im Alltag auffallen können, ist es in der Forschung schwieriger: Normalerweise werden deren Ergebnisse in Fachartikeln berichtet, die auf Testdatensätzen basieren – und oft eben viel zu gut sind, um wahr zu sein. „Fast alle Fehler führen dazu, dass die Leistung überschätzt wird“, sagt Narayanan – es gebe einen „wuchernden Überoptimismus“, der vielleicht damit zusammenhänge, dass auch kommerzielle Anbieter große Versprechen machen. Die Forscher sehen erheblichen Handlungsbedarf und haben auf dem Workshop daher auch Ansätze vorgestellt, wie derartige Fehler erkannt und vermieden werden können.

Ist der Hype um künstliche Intelligenz schuld?

Auch Moritz Hardt betont, dass die Trennung der Trainings- und Testdaten essenziell ist – er ist seit knapp einem Jahr Direktor des Tübinger Max-Planck-Instituts für Intelligente Systeme und hat zuvor in den USA geforscht, teils auch mit dem Team in Princeton. Viele Probleme seien jedoch eigentlich schon lange bekannt. „Neu ist, dass man durch den Hype um Künstliche Intelligenz versucht, es auf neue Bereiche der Wissenschaft anzuwenden“, sagt er. Die Leistung von Methoden des maschinellen Lernens hänge allgemein stark von den verwendeten Daten ab: Ein Algorithmus, der an Daten einer Frankfurter Klinik gute Ergebnisse liefert, sei ohnehin nicht unbedingt auf Daten einer Klinik aus München übertragbar, wenn etwa die Daten leicht anders erhoben werden. Hinzu kommen statistische Probleme, die teils schon in den Neunzigerjahren diskutiert wurden – weil die Ansätze immer mehr in Situationen angewendet werden, für die sie nicht gedacht waren. „Es gibt viele Arten und Weisen, wie maschinelles Lernen scheitern kann“, sagt Hardt.

Von genereller Krisenstimmung will er nicht sprechen – bei kommerziellen Anwendungen gebe es viel Optimismus, die Forscherseite sei jedoch teils pessimistischer. Dies könne aber auch Fortschritt ermöglichen: „Es kann natürlich sein, dass man jetzt besser versteht, wann man maschinelles Lernen nicht einsetzen kann“, sagt Hardt. Wichtig sei, den politischen Kontext im Blick zu haben: Wenn Algorithmen Entscheidungen treffen sollen, die gravierende Konsequenzen haben, seien Fragen der Gültigkeit der Ergebnisse besonders relevant.

ANZEIGE

Ähnlich sieht es die Informatikerin Katharina Morik von der TU Dortmund – Fachfremde würden teils ohne entsprechende Ausbildung Methoden des maschinellen Lernens falsch anwenden. „Es wird oft nicht anerkannt, dass Künstliche Intelligenz und insbesondere das maschinelle Lernen eines gründlichen Studiums bedarf“, sagt die Expertin; Soft­waretools seien einfach verfüg- und bedienbar. „Das verführt Wissenschaftler anderer Disziplinen vielleicht dazu, sich ohne Kenntnisse an die Analyse von Daten zu wagen“, sagt Morik. „Es braucht viel mehr Professuren für maschinelles Lernen, damit genügend Menschen ausgebildet werden können.“

Quelle: F.A.Z.
Autorenporträt / Feldwisch-Drentrup, Hinnerk
Hinnerk Feldwisch-Drentrup
Redakteur im Ressort „Natur und Wissenschaft“.
Twitter
  Zur Startseite
Lesermeinungen
Alle Leser-Kommentare
Verlagsangebot
Verlagsangebot
Zertifikate
Weiterbildung in der Organisationspsychologie
Sprachkurse
Lernen Sie Italienisch
Englisch
Verbessern Sie Ihr Englisch
Kapitalanlage
Pflegeimmobilien als Kapitalanlage der Zukunft
Tablet
Tablets im Test
ANZEIGE