Laut einer neuen Studie erkennt der Gesundheitsdienst von ChatGPT oft nicht, wann Nutzerinnen und Nutzer dringend medizinische Hilfe brauchen.
Weltweit wenden sich jede Woche mehr als 230 Millionen Menschen mit Gesundheitsfragen an ChatGPT – sie lassen etwa prüfen, ob Lebensmittel noch genießbar sind, suchen Hilfe bei Allergien oder Hausmittel gegen eine Erkältung, wie OpenAI mitteilt.
Bei typischen Lehrbuchfällen erzielt ChatGPT Health gute Ergebnisse. In ernsten Situationen empfahl das System jedoch oft keinen Gang in die Notaufnahme, zeigt eine neue Studie im Fachmagazin Nature (Quelle auf Englisch).
Die Forschenden stellten fest: Klare Notfälle erkannte das Programm meist richtig. Mehr als die Hälfte der Fälle, die eine Behandlung in der Notaufnahme erfordert hätten, stufte es aber als weniger dringlich ein.
„Wir wollten eine sehr einfache, aber entscheidende Frage beantworten: Wenn jemand einen echten medizinischen Notfall erlebt und sich an ChatGPT Health wendet – sagt das System dann eindeutig, dass die Person in die Notaufnahme gehen soll?“, erklärte Ashwin Ramaswamy, Hauptautor der Studie am Mount Sinai in New York.
„ChatGPT Health hat bei klassischen Notfällen wie Schlaganfall oder schweren allergischen Reaktionen gut abgeschnitten“, sagte er.
Schwieriger wurde es für das Sprachmodell, wenn die Gefahr nicht sofort erkennbar war.
In einem Asthma-Szenario erkannte das System in seiner Erklärung zwar frühe Warnzeichen eines drohenden Atemversagens. Trotzdem riet es der Patientin oder dem Patienten, zunächst abzuwarten, statt sofort eine Notfallbehandlung zu suchen, so Ramaswamy.
Für die Untersuchung entwickelte das Team sechzig strukturierte Fallbeispiele aus einundzwanzig medizinischen Fachgebieten. Sie reichten von leichten Beschwerden, die sich zu Hause behandeln lassen, bis zu echten Notfällen. Drei unabhängige Ärztinnen und Ärzte legten mithilfe von Leitlinien aus 56 Fachgesellschaften fest, wie dringlich jeder Fall einzustufen ist.
OpenAI hat ChatGPT Health im Januar 2026 gestartet. Der Dienst erlaubt Nutzerinnen und Nutzern, Gesundheitsdaten wie Arztbriefe oder Informationen aus Wellness-Apps wie MyFitnessPal zu verknüpfen, um mehr personalisierte und besser eingeordnete Antworten zu erhalten.
Fehleinschätzung von Suizidrisiken
Die Studie untersuchte auch, wie das Modell reagiert, wenn Menschen Selbsttötungsgedanken oder Selbstverletzungsabsichten schildern – mit ähnlichen Ergebnissen.
ChatGPT Health soll so programmiert sein, dass Betroffene bei Hinweisen auf Selbstverletzung oder Suizidgedanken direkt ermutigt werden, Hilfe zu suchen und eine öffentliche Gesundheits- oder Krisennummer anzurufen.
Der Hinweisbanner „Help is available“, der mit der Suizid- und Krisenhilfe verlinkt, erschien in der Studie jedoch nur unregelmäßig.
Die Autorinnen und Autoren stellten fest, dass diese Sicherheitsfunktion bei einer Person, die noch kein konkretes Mittel zur Selbstschädigung genannt hatte, zuverlässiger reagierte als bei Menschen, die bereits einen konkreten Plan beschrieben.
„Das Muster war nicht nur uneinheitlich, sondern stand in paradoxer Weise im Gegensatz zum klinischen Schweregrad“, heißt es in der Studie.
Wie sicher ist ChatGPT Health?
Trotz der Ergebnisse raten die Forschenden nicht dazu, KI-Gesundheitstools grundsätzlich zu meiden.
„Als Medizinstudentin in einer Zeit, in der KI-Gesundheitstools bereits von Millionen Menschen genutzt werden, sehe ich sie als Technologien, die wir sorgfältig in die Versorgung einbinden müssen – nicht als Ersatz für klinische Urteile“, sagte Alvira Tyagi, Zweitautorin der Studie.
Menschen mit zunehmenden oder beunruhigenden Beschwerden – etwa Brustschmerzen, Atemnot, schweren allergischen Reaktionen oder Veränderungen des mentalen Zustands – sollten laut Studie direkt ärztliche Hilfe suchen und sich nicht allein auf die Empfehlungen eines Chatbots verlassen.
Die Autorinnen und Autoren betonen außerdem, dass KI-Sprachmodelle sich ständig weiterentwickeln und häufig aktualisiert werden. Die Leistung kann sich deshalb mit der Zeit deutlich verändern.
„Ich beginne meine medizinische Ausbildung parallel zu Werkzeugen, die sich in Echtzeit verändern. Das macht deutlich, dass die heutigen Ergebnisse nicht in Stein gemeißelt sind“, sagte Tyagi.
Die schnelllebige Entwicklung erfordere laufende Überprüfungen, ergänzte sie, damit technische Fortschritte tatsächlich zu einer sichereren Versorgung von Patientinnen und Patienten führen.