Studie: KI-Modelle schlagen Ärzte bei komplexen medizinischen Entscheidungen

Studie: KI-Modell übertrifft Ärzte bei den meisten Aufgaben des klinischen Denkens - Copyright Canva/Cleared

Zuerst veröffentlicht am 05/05/2026 - 6:55 MESZ

Forscher berichten, dass ein KI-Modell Ärztinnen und Ärzte bei den meisten medizinischen Denkaufgaben übertrifft – von der Diagnose bis zur Behandlungsempfehlung.

Modelle der Künstlichen Intelligenz schneiden bei medizinischen Entscheidungen in der Notfallversorgung besser ab als Ärztinnen und Ärzte. Das zeigt eine neue Studie.

Forschende der Harvard Medical School und des Beth Israel Deaconess Medical Center in den USA haben KI-Systeme und Ärzteteams bei einer ganzen Reihe klinischer Entscheidungsaufgaben miteinander verglichen.

Ihr Ergebnis: Große Sprachmodelle (Large Language Models, LLMs) lagen bei mehreren Aufgaben vorn – etwa bei Entscheidungen in der Notaufnahme auf Basis der verfügbaren Informationen, bei der Einschätzung wahrscheinlicher Diagnosen und bei der Auswahl der nächsten Behandlungsschritte.

„Wir haben das KI-Modell gegen nahezu jeden Benchmark getestet, und es hat sowohl frühere Modelle als auch unsere ärztlichen Vergleichswerte übertroffen“, sagte Arjun Manrai, Mitautor und Professor an der Harvard Medical School.

„Das bedeutet jedoch nicht, dass KI die Versorgung automatisch verbessert. Wie und wo man solche Systeme einsetzen sollte, ist noch kaum untersucht. Wir brauchen dringend sorgfältig geplante prospektive Studien, um die Auswirkungen von KI auf die klinische Praxis zu bewerten.“

Wie Forschende das KI-Modell testen

Zunächst nahmen die Forschenden o1-preview unter die Lupe, ein im Jahr 2024 veröffentlichtes Schlussfolgerungsmodell von OpenAI. Das System erhielt unterschiedliche Fallbeispiele, darunter veröffentlichte Falldiskussionen und echte Akten aus Notaufnahmen.

In den meisten Versuchen schnitt die KI besser ab als menschliche Ärztinnen und Ärzte, vor allem bei Überlegungen zum weiteren Vorgehen, bei der klinischen Argumentation, in der Dokumentation und in realen Notfallsituationen mit wenig verfügbaren Informationen.

„Modelle werden zunehmend leistungsfähiger. Früher haben wir sie mit Multiple-Choice-Tests geprüft; inzwischen erreichen sie dort fast konstant Werte nahe an einhundert Prozent, und wir können Fortschritte kaum noch nachverfolgen, weil wir die Decke bereits erreicht haben“, sagte Mitautor Peter Brodeur, klinischer Fellow in Medizin am Beth Israel Deaconess.

In einem Versuch baten die Forschenden die Sprachmodelle o1 und GPT-4o, Patientinnen und Patienten an verschiedenen Punkten eines typischen Ablaufs in der Notaufnahme zu beurteilen – von der ersten Triage bis zur Entscheidung über eine stationäre Aufnahme.

In jeder Phase bekam das System nur die jeweils vorliegenden Angaben. Es sollte daraus wahrscheinliche Diagnosen ableiten und einen nächsten Schritt empfehlen.

Am größten war der Vorsprung der KI in der Triage, wenn nur begrenzte Informationen zur Verfügung standen.

Wie bei Ärztinnen und Ärzten wurden auch die Modelle treffsicherer, je mehr Daten sie erhielten.

„Der Einsatz von KI zur Unterstützung klinischer Entscheidungen gilt zwar manchmal als besonders riskant, doch eine breitere Nutzung solcher Werkzeuge könnte helfen, die menschlichen und finanziellen Kosten von Fehldiagnosen, Verzögerungen und mangelndem Zugang zur Versorgung zu verringern“, schrieben die Autorinnen und Autoren.

Weitere Forschung nötig

Die Forschenden fordern prospektive Studien unter Alltagsbedingungen. Gesundheitssysteme müssten zugleich in Recheninfrastruktur investieren und Rahmenkonzepte entwickeln, damit KI-Werkzeuge sicher in die Abläufe der klinischen Versorgung eingebunden werden können.

„Ein Modell kann zwar die wichtigste Diagnose richtig stellen, zugleich aber unnötige Untersuchungen vorschlagen, die Patientinnen oder Patienten schaden könnten“, sagte Brodeur. „Beim Bewerten von Leistung und Sicherheit sollten Menschen immer die letzte Instanz sein.“

Die Studie hat Grenzen. Sie bildet nur die Leistung der Modelle ab und konzentriert sich vor allem auf die Vorabversion des o1-Modells, die inzwischen durch neuere Systeme wie OpenAIs o3-Modell ersetzt wurde.

„Mit neueren Modellen erwarten wir eine gleichbleibende oder bessere Leistung“, schrieben die Autorinnen und Autoren. „Weitere Studien sollten klären, wie stark die Ergebnisse zwischen verschiedenen Systemen schwanken und wie Menschen und Sprachmodelle sinnvoll zusammenarbeiten können.“

Zu den Barrierefreiheitskürzeln springen

Kommentare

Studie: KI-Modelle schlagen Ärzte bei komplexen medizinischen Entscheidungen

Forscher berichten, dass ein KI-Modell Ärztinnen und Ärzte bei den meisten medizinischen Denkaufgaben übertrifft – von der Diagnose bis zur Behandlungsempfehlung.

Wie Forschende das KI-Modell testen

Weitere Forschung nötig

Zum selben Thema

Ernährung der Kinder von Hundertjährigen: neue Studie gibt Hinweise

Spanien: Gesundheitsministerium bestätigt Hantavirus-Fall, zwei Infizierte in Quarantäne in Madrid

Studie: Tödliche Schlangen rücken in Wohngebiete vor

Gefährliche Schlangen rücken in Wohngebiete vor

Dreimal Bodensee: Europas größte unterirdische Trinkwasserreserve

Schockiert: Vater der in Portugal ausgesetzten Kinder bricht Schweigen

Europas größter Badestrand? Sand ohne Ende an der deutschen Nordsee

"Navigationsdienste": Iran verlangt Gebühren für die Straße von Hormus