Michael Peel via Financial Times
Vertrauen Sie Ihrem bevorzugten KI-Chatbot für Verbraucher nicht bei Gesundheitsentscheidungen. Wenn Sie von vornherein keine korrekten Informationen liefern können, erwarten Sie auch keine präzise Diagnose. Trotz der Warnhinweise aller KI-Modelle, sich an einen Arzt oder medizinisches Fachpersonal zu wenden, setzen viele Menschen dennoch falsche Hoffnungen in Chatbots. ⁃ Patrick Wood, Editor.
KI-Chatbots für Verbraucher geraten ins Straucheln, wenn sie zur Erstellung medizinischer Diagnosen eingesetzt werden, insbesondere wenn sie mit unvollständigen Informationen konfrontiert sind. Das zeigt eine neue Studie, die die Risiken beleuchtet, sich auf sie als digitale Ärzte zu verlassen.
Die Studie zeigt, dass führende große Sprachmodelle Schwierigkeiten haben, eine Bandbreite möglicher Diagnosen vorzuschlagen, wenn Patientendaten begrenzt sind, und sich häufig zu schnell auf eine einzige Antwort festlegen.
Die Ergebnisse weisen auf eine grundlegendere Einschränkung von KI hin: Während Chatbots wahrscheinliche Erkrankungen identifizieren können, sobald ein Fall vollständig beschrieben ist, sind sie in den frühen, unsicheren Phasen der klinischen Entscheidungsfindung deutlich weniger zuverlässig.
Die Ergebnisse unterstreichen die Gefahren, sich allein auf diese Technologie zu verlassen, um Gesundheitsprobleme zu bestimmen – insbesondere in Fällen, in denen die von Nutzern eingegebenen Daten unklar oder lückenhaft sind.
„Diese Modelle sind hervorragend darin, eine endgültige Diagnose zu benennen, sobald die Daten vollständig sind, aber sie haben Schwierigkeiten am offenen Anfang eines Falls, wenn nur wenige Informationen vorliegen“, sagte Arya Rao, Hauptautorin der Studie und Forscherin beim in Massachusetts ansässigen Gesundheitssystem Mass General Brigham.
Die Studie, die am Montag im Fachjournal Jama Network Open veröffentlicht wurde, testete KI-Modelle anhand von 29 klinischen Fallbeispielen, die auf einem standardisierten medizinischen Referenztext basieren.
Das Experiment beinhaltete eine schrittweise Offenlegung von Daten, darunter die Krankengeschichte, Ergebnisse körperlicher Untersuchungen und Laborwerte. Die Forscher stellten den Sprachmodellen diagnostische Fragen und maßen ihre Fehlerraten, definiert als der Anteil der Fragen, die nicht vollständig korrekt beantwortet wurden.
Die Forscher bewerteten 21 große Sprachmodelle, darunter führende Systeme von OpenAI, Anthropic, Google, xAI und DeepSeek.
Dabei zeigte sich, dass die Fehlerraten bei allen Modellen über 80 Prozent lagen, wenn sie sogenannte Differenzialdiagnosen durchführen mussten – also in Situationen, in denen keine vollständigen Patientendaten vorlagen.
Mit vollständigeren Daten sank die Fehlerrate bei endgültigen Diagnosen auf unter 40 Prozent, wobei die besten Modelle eine Genauigkeit von über 90 Prozent erreichten.
Claude ist darauf trainiert, Menschen mit medizinischen Fragen an Fachpersonal zu verweisen, erklärte Anthropic. Gemini sei ebenfalls so konzipiert und enthalte entsprechende Hinweise in der App, Nutzer zur Überprüfung von Informationen anzuhalten, so Google.
Die Nutzungsrichtlinien von OpenAI besagen, dass ihre Dienste nicht zur Erteilung medizinischer Beratung verwendet werden sollten, die eine Lizenz erfordert, ohne angemessene fachliche Beteiligung.
xAI reagierte nicht auf eine Anfrage zur Stellungnahme. DeepSeek war für eine Stellungnahme nicht erreichbar.
Unternehmen entwickeln zunehmend spezialisierte medizinische Sprachmodelle wie Googles Articulate Medical Intelligence Explorer (AMIE) und MedFound.
Frühe Ergebnisse von Bewertungen solcher Modelle wie AMIE seien vielversprechend, sagte Sanjay Kinra, klinischer Epidemiologe an der London School of Hygiene & Tropical Medicine. Dennoch dürften sie kaum in der Lage sein, ärztliche Beurteilungen vollständig zu ersetzen, da diese „stark auf dem Erscheinungsbild und dem Gesamtzustand des Patienten beruhen“.
„Dennoch könnten sie eine Rolle spielen, insbesondere in Situationen oder Regionen, in denen der Zugang zu Ärzten begrenzt ist“, sagte Kinra. „Daher benötigen wir dringend Studien mit echten Patienten aus diesen Umgebungen.“