Überschätzte KI

Sind Algorithmen tatsächlich die besseren Ärzte?

Von Hildegard Kaulen
08.05.2020
, 22:16
In Teilen der Medizin grassiert ein Hype um Künstliche Intelligenz. Das ruft die Chefkritiker auf den Plan. Die Beweislage in der Bildgebung halten sie für extrem dürftig.

In der Vergangenheit ist immer wieder der Eindruck entstanden, dass Künstliche Intelligenz Erkrankungen genauso gut erkennen kann wie ein erfahrener Arzt – wenn nicht sogar besser. Schlagzeilen wie „Google sagt, dass seine Künstliche Intelligenz Lungenkrebs ein Jahr vor dem Arzt entdecken könne“, wecken zweifellos hohe Erwartung. Dabei geht es meistens um die Bewertung digitaler Bilddateien durch Deep-Learning-Algorithmen oder durch einen erfahrenen Mediziner, zum Beispiel bei der Diagnostik von Lungen- oder Hautkrebs oder bei der Diagnostik verschiedener Stadien der Erblindung. Myura Nagendran vom Imperial College in London und seine Kollegen bezweifeln im „British Medical Journal“, dass die Qualität der bisher veröffentlichten Studien tatsächlich ausreicht, zu zeigen, dass die getesteten Algorithmen den Ärzten ebenbürtig sind.

Die Autoren des Artikels, zu denen prominente Persönlichkeiten wie Eric Topol vom Scripps Research Translational Institute und John Ioannidis von der Stanford-Universität gehören, kritisieren, dass die meisten der von ihnen bewerteten Studien von geringer wissenschaftlicher Qualität und intransparent seien. Sie stellen dabei nicht grundsätzlich das Potential von Künstlicher Intelligenz in Frage und wollen auch keinesfalls deren Entwicklung bremsen, sondern fordern, dass die Studien, die die diagnostische Treffsicherheit der Algorithmen belegen sollen, nach hohen wissenschaftlichen Standards und nach einheitlichen Regeln durchgeführt werden müssen. Studien von geringer Evidenz gefährdeten die Sicherheit der Patienten, so die Autoren.

Deep-Learning-Netze orientieren sich in der Architektur an den neuronalen Netzwerken des menschlichen Gehirns. Für die Bilderkennung werden vor allem neuronale Faltungsnetze verwendet, sogenannte Convolutional Neural Networks. Diese extrahieren automatisch Muster aus einem Bilddatensatz, zum Beispiel nach Lungen- oder Hauptkrebs-Diagnose. Sie lernen dabei ohne Zutun des Anwenders Muster, die sie mutmaßlich mit Lungen- oder Hautkrebs verbinden. Die Netzwerke klassifizieren dann jedes neue Bild selbständig durch die Verknüpfung der gelernten Muster mit der trainierten Zuordnung Lungen- oder Hautkrebs. Dabei lässt sich bisher aber meistens nicht nachvollziehen, wie die jeweilige Entscheidung zustande gekommen ist, weil die Netzwerke ihre Klassifikation ohne äußeren Einfluss vornehmen. Daher weiß niemand, welche Muster für die Entscheidung des Netzwerks herangezogen worden sind und ob ein erfahrener Arzt bei seiner Entscheidung ganz anders vorgeht oder ähnliche Muster heranzieht wie der Deep-Learning-Algorithmus. Ein neuronales Faltungsnetz ist damit eine Black Box. Beurteilen lässt sich nur die Entscheidung, nicht wie sie zustande gekommen ist.

Ernüchternde Studienergebnisse

Nagendran und seine Kollegen haben nun untersucht, wie hochwertig die Qualität der in den vergangenen zehn Jahren veröffentlichten Studien ist und wie evidenzbasiert deren Schlussfolgerungen sind. Die Analyse war ernüchternd. Die Wissenschaftler fanden heraus, dass zwischen 2010 und 2019 nur zwei hochwertige, randomisierte klinische Studien publiziert worden sind, beide im vergangenen Jahr. Beide wurden in China vorgenommen. Acht randomisierte Studien laufen derzeit, eine davon in den Vereinigten Staaten. Trotzdem sind dort bereits 16 Deep-Learning-Algorithmen für die Auswertung medizinischer Bilddaten durch die amerikanische Food und Drug Administration zugelassen worden.

Randomisierte klinische Studien sind das beste Mittel, um zwei Vorgehensweisen zu vergleichen. Bei den beiden bisher publizierten randomisierten Studien hatten die erfahrenen Ärzte in einer Studiengruppe allein entschieden, in der anderen Studiengruppe hatten sie sich von dem Algorithmus unterstützen lassen. Von den 81 nicht randomisierten Studien, die den Einschlusskriterien entsprachen, hatten nur neun Studien ein prospektives Design. Bei solchen Studien werden keine Gruppen gebildet und verglichen, sondern Daten zu einer bestimmten Fragestellung über die Zeit erhoben und ausgewertet. Allerdings fanden nur sechs dieser prospektiven Studien unter klinischen Alltagsbedingungen statt und hatten damit überhaupt das Potential, irgendetwas zur diagnostischen Qualität der getesteten Algorithmen unter Routinebedingungen zu sagen. 58 der 81 Studien waren hochgradig verzerrt. Sie besaßen ein minderwertiges Studiendesign oder wichen von anerkannten Standards ab.

Überzogene Behauptungen

Trotzdem kamen insgesamt 61 Studien zu dem Schluss, dass die Leistung der Algorithmen mit der Leistung der erfahrenen Ärzte vergleichbar oder sogar besser war. Nur bei 31 Studien waren die Studienleiter so selbstkritisch, dass sie bei der Zusammenfassung oder der Diskussion ihrer Ergebnisse weitere Studien zur Absicherung forderten. Nagendran und seine Kollegen bemängeln zudem, dass an den Studien im Durchschnitt nur jeweils vier erfahrene Ärzte teilgenommen hatten. Angesichts der Tatsache, dass auch erfahrene Ärzte unterschiedlich gut sind, muss die Gruppe größer sein, um das Ergebnis statistisch abzusichern. Bei den wenigsten Studien war ein Zugriff auf die Rohdaten und den Code möglich. Damit kann der Algorithmus nicht von anderen Fachleuten überprüft werden.

Die Autoren gehen allerdings auch selbstkritisch mit ihrer eigenen Studie um und verweisen auf deren Schwächen. Sie können zum Beispiel nicht ausschließen, dass sie relevante Studien übersehen haben. Sie haben sich auf die Bilderkennung durch Deep Learning konzentriert. Ihr Vorwurf, dass viele Studien nicht die gebotene Qualität besitzen, könne in anderen Bereichen, in denen Künstliche Intelligenz in der Medizin verwendet wird, anders sein. Nagendran und seine Kollegen kommen durch ihre Analyse zu dem Schluss, dass viele der bisherigen Behauptungen überzogen sind. Sie sehen darin sogar ein mögliches Gesundheitsrisiko für die Patienten und warnen davor, Studien durch übertriebene Formulierungen anfällig für Fehlinterpretationen zu machen und einen unangemessenen Hype zu induzieren. Das Feld brauche eine qualitativ hochwertige und transparente Evidenzbasis – alles andere diene nicht dem Patienten.

Quelle: F.A.Z.
  Zur Startseite
Verlagsangebot
Verlagsangebot