Newsletter Newsletters Events Veranstaltungen Podcasts Videos Africanews
Loader
Finden Sie uns
Werbung

Studie: KI scheitert bei Erstdiagnosen in über 80 Prozent der Fälle

Studie: KI-Chatbots noch nicht reif für den klinischen Einsatz an der Front
Studie: KI-Chatbots taugen noch nicht für den Einsatz an der klinischen Front Copyright  Cleared/Canva
Copyright Cleared/Canva
Von Marta Iraola Iribarren
Zuerst veröffentlicht am Zuletzt aktualisiert
Teilen Kommentare
Teilen Close Button

KI-Sprachmodelle liefern in mehr als 80 Prozent der Fälle keine brauchbare Erstdiagnose. Eine neue Studie warnt: Für den Einsatz in der klinischen Praxis ohne enge Aufsicht sind sie noch nicht sicher genug.

Generative Künstliche Intelligenz fehlt nach wie vor das nötige medizinische Denkvermögen für einen sicheren Einsatz in der Praxis. Zu diesem Schluss kommt eine neue Studie.

WERBUNG
WERBUNG

KI-Chatbots treffen zwar häufiger die richtige Diagnose, wenn sie umfassende klinische Informationen erhalten. Nach Angaben von Forschern am gemeinnützigen Krankenhaus- und Forschungsnetzwerk Mass General Brigham in Boston liefern sie jedoch in mehr als 80 Prozent der Fälle keine passende Differenzialdiagnose. Die Einrichtung zählt zu den größten Gesundheitssystemen in den Vereinigten Staaten.

Die Ergebnisse der Studie sind im frei zugänglichen medizinischen Fachjournal JAMA Network Open erschienen. Demnach erreichen große Sprachmodelle (Large Language Models, LLMs) noch nicht das Maß an Schlussfolgerungsfähigkeit, das für den klinischen Einsatz erforderlich wäre.

"Trotz stetiger Fortschritte sind frei verfügbare große Sprachmodelle noch nicht bereit für einen eigenständigen Einsatz auf Klinikniveau", sagte Marc Succi, Mitautor der Studie.

Er ergänzte, Künstliche Intelligenz könne die Differenzialdiagnose bislang nicht nachbilden. Sie stehe im Zentrum des klinischen Denkens und sei für ihn die "Kunst der Medizin".

Die Differenzialdiagnose ist für medizinisches Personal der erste Schritt, um eine Erkrankung einzugrenzen und sie von anderen Leiden mit ähnlichen Symptomen zu unterscheiden.

So testen Forscher die Modelle

Das Forschungsteam analysierte die Funktionsweise von 21 LLMs, darunter die jeweils neuesten verfügbaren Versionen von Claude, DeepSeek, Gemini, GPT und Grok.

Bewertet wurden die Modelle anhand von 29 standardisierten klinischen Fallvignetten. Dafür nutzten die Forscher ein neu entwickeltes Werkzeug namens PrIME-LLM.

Das Tool überprüft die Fähigkeiten eines Modells in verschiedenen Phasen des klinischen Vorgehens: Es erstellt eine erste Arbeitsdiagnose, ordnet passende Untersuchungen an, legt eine endgültige Diagnose fest und plant die Behandlung.

Um reale Abläufe in der Klinik zu simulieren, fütterten die Forscher die Modelle schrittweise mit Informationen. Sie begannen mit Basisdaten wie Alter, Geschlecht und Beschwerden der Patienten und ergänzten anschließend Befunde der körperlichen Untersuchung sowie Laborergebnisse.

Eine Differenzialdiagnose ist in der Praxis entscheidend, um zur nächsten Stufe der Behandlung zu gelangen. In der Studie erhielten die Modelle jedoch zusätzliche Informationen selbst dann, wenn sie an diesem Schritt scheiterten, damit sie dennoch in die nächste Phase übergehen konnten.

Die Forscher stellten fest, dass die Sprachmodelle bei der endgültigen Diagnose häufig hohe Trefferquoten erreichten, zugleich aber Schwächen dabei zeigten, Differenzialdiagnosen zu formulieren und mit Unsicherheit umzugehen.

Studienautorin Arya Rao betonte, dass eine stufenweise Bewertung große Sprachmodelle nicht länger wie Prüfungskandidaten behandle, sondern sie in die Rolle von Ärzten versetze.

"Sobald alle Daten vorliegen, können diese Modelle die endgültige Diagnose meist gut benennen. Am offenen Beginn eines Falls, wenn nur wenige Informationen vorhanden sind, tun sie sich jedoch schwer", sagte sie.

Die Forscher stellten fest, dass alle Modelle in mehr als 80 Prozent der Fälle keine geeignete Differenzialdiagnose lieferten.

Bei der endgültigen Diagnose lagen die Erfolgsquoten je nach Modell zwischen rund 60 und mehr als 90 Prozent.

Die meisten LLMs wurden genauer, wenn sie neben Text auch Laborwerte und bildgebende Untersuchungen erhielten.

Die Auswertung ergab eine Spitzengruppe, zu der Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash und Gemini 3.0 Pro gehörten.

Medizinisches Fachpersonal bleibt unverzichtbar

Die Autoren betonen, dass frei verfügbare LLMs trotz Verbesserungen von Version zu Version und trotz Vorteilen bei speziell auf Schlussfolgern optimierten Modellen noch nicht das für einen sicheren Einsatz notwendige Intelligenzniveau erreicht haben. Fortgeschrittenes klinisches Denken können sie bislang nur begrenzt zeigen.

"Unsere Ergebnisse bestätigen, dass große Sprachmodelle im Gesundheitswesen weiterhin einen Menschen in der Entscheidungsschleife und eine sehr enge Aufsicht benötigen", sagte Succi.

Susana Manso García, Mitglied der Arbeitsgruppe Künstliche Intelligenz und Digitale Gesundheit der Spanischen Gesellschaft für Familien- und Gemeinschaftsmedizin, die an der Studie nicht beteiligt war, sieht in den Ergebnissen eine klare Botschaft an die Öffentlichkeit.

"Die Studie selbst betont, dass Sprachmodelle ohne Aufsicht nicht zur klinischen Entscheidungsfindung eingesetzt werden sollten. Künstliche Intelligenz ist zwar ein vielversprechendes Werkzeug, doch das menschliche klinische Urteil bleibt unverzichtbar", sagte sie.

"Die Empfehlung an die Bevölkerung lautet, diese Technologien mit Vorsicht zu nutzen und bei gesundheitlichen Problemen immer eine medizinische Fachkraft zu Rate zu ziehen."

Zu den Barrierefreiheitskürzeln springen
Teilen Kommentare

Zum selben Thema

Von Knochenschwund bis Sehstörungen: Wie Raumfahrt den Körper verändert

Studie: Sieben Tage Meditation verändern das Gehirn

Novo Nordisk und OpenAI beschleunigen Medikamentenforschung