Per ChatGPT-3.5 könnten Menschen mit möglichen Symptomen einer akuten urologischen Erkrankung, zum Beispiel kolikartige Schmerzen etc., eine relativ gute "Erstberatung" bekommen. Deutsche und österreichische Urologen haben die Genauigkeit von KI-Tipps zu häufigen Fragen bewertet und für ziemlich gut befunden.
"Patienten haben Schwierigkeiten, Symptome zu klassifizieren, was eine rechtzeitige medizinische Konsultation erschwert. Da 35 Prozent bis 75 Prozent der Patienten online nach Informationen suchen, bevor sie zum Arzt gehen, hat sich generative sprachbasierte künstliche Intelligenz (KI), wie sie beispielsweise ChatGPT-3.5 (GPT-3.5) von OpenAI bietet, als wichtige Quelle herausgestellt", schrieb jetzt ein deutsch-österreichisches Studienteam, zum größten Teil von urologischen Universitätskliniken (auch MedUni Graz) in "European Urology Open Science" (doi: 10.1016/j.euros.2024.10.015).
Ziel der wissenschaftlichen Untersuchung war es, eine mögliche Rolle von GPT-3.5 für eine KI-basierte Triage bei akuten urologischen Symptomen als ersten Ratschlag für Betroffene zu beurteilen. Dafür verwendeten die Wissenschafter häufige akute Symptomkomplexe: aufgetretene Hodenschmerzen oder ertastete Knoten am Hoden, verfärbter Harn (Blutbeimengung, Schmerzen oder ohne Schmerzen), Symptome, die auf eine Harnwegsinfektion zurückzuführen sein könnten (unklare Becken- oder Rückenschmerzen, Fieber etc.), Koliken und Priapismus (Erektion des Penis länger als drei Stunden).
Studie mit Fragen aus Patientenforen
Die Grundlage für schließlich 472 Anfragen an ChatGPT-3.5 bildeten die Beschreibungen solcher akuten urologischen Beschwerden durch Laien aus Patientenforen. Eingegeben wurden sie unabhängig voneinander von neun Urologen. Die Antworten wurden unter anderem mit den Richtlinien des Europäischen Urologie-Verbandes (EAU) verglichen, die Qualität der Informationen mit einem speziellen Fragebogen und mit einer linguistischen Analyse bewertet.
Die Beurteilung erfolgte auf einer fünfteiligen Skala. Die Hauptergebnisse: "Die mittleren Bewertungen für GPT-3.5 lagen bei 4 von 5 für die Differenzialdiagnose (DD; Anm.) und empfohlene Vorgangsweise (CoA; Anm.) und bei 3 von 5 für die allgemeine Informationsqualität." Die englischen Ergebnisse waren mit 4,27 zu 3,95 (Deutsch) bei der "Diagnose" und bei den Handlungsempfehlungen (4,27 zu 4,05) durchwegs besser. Aber, so die Autoren: "Es gab keinen Leistungsunterschied zwischen dringenden und nicht dringenden Fällen." Zu wünschen übrig ließen hingegen die Transparenz (Quellenangaben), die Risikobewertung und Fragen der Lebensqualität.
Insgesamt gut, aber Verbesserungen notwendig
Somit habe ChatGPT-3.5 als erstes Triage-System durchaus Potenzial "für die Bereitstellung individueller, einfühlsamer Beratung, die größtenteils den EAU-Richtlinien entspricht und andere Online-Informationen übertrifft", so die Wissenschafter. "Relevante Mängel in Bezug auf die Informationsqualität, insbesondere bei der Risikobewertung, müssen behoben werden, um die Zuverlässigkeit zu verbessern." Wie sehr ChatGPT aus einer ursprünglichen US-Umgebung stammt, zeigte sich beispielsweise in dem Ratschlag, einen Arzt aufzusuchen, auch wenn man keine Krankenversicherung besitze. Positiv wirkt sich hingegen offenbar aus, dass das KI-System auf eine Unmenge an Daten zurückgreift, einfache Internet-Recherche durch Laien aber sehr leicht an schlichtweg dubiose Quellen geraten kann.
Die Zusammenfassung der Wissenschafter: "ChatGPT-3.5 schnitt gut ab, indem es eine vollständige Liste möglicher Diagnosen lieferte und eine Vorgehensweise empfahl, die größtenteils den aktuellen Richtlinien entspricht. Die Qualität der Informationen war insgesamt gut, aber fehlende und unklare Quellen für die Informationen können ein Problem darstellen." Verbesserungen seien jedenfalls weiterhin notwendig.
APA/red Foto: APA/APA/AFP/KIRILL KUDRYAVTSEV
Bis 30.11.24 mit 70 Euro Willkommensgutschein wahlweise von IKEA, MediaMarkt oder Gurkerl!