En nylig publisert studie avslører at AI-chatboter feildiagnostiserer i over 80% av tidlige medisinske tilfeller, spesielt når pasientdata er begrenset. Forskere ved Massachusetts General Brigham testet 21 store språkmodeller, inkludert ledende modeller fra OpenAI, Anthropic, Google, xAI og DeepSeek, ved hjelp av 29 kliniske vignetter basert på standard medisinske referansetekster.
Studien viste at når AI-modellene måtte utføre differensialdiagnoser med begrenset pasientinformasjon, oversteg feilraten 80% for alle modeller. Derimot, med mer fullstendig pasientdata, falt feilraten til under 40%, og de beste modellene oppnådde over 90% nøyaktighet.
Disse funnene understreker en betydelig begrensning i AI-teknologi: mens chatboter kan identifisere sannsynlige tilstander når en sak er fullstendig spesifisert, er de mindre pålitelige i de tidlige, mer usikre stadiene av klinisk resonnering. Forskere advarer derfor mot å stole utelukkende på AI for å identifisere helseproblemer, spesielt i tilfeller der brukerens inndata kan være vage eller ufullstendige.
"Disse modellene er gode til å navngi en endelig diagnose når dataene er komplette, men de sliter i den åpne starten av en sak, når det ikke er mye informasjon," sier Arya Rao, studiens hovedforfatter og forsker ved Massachusetts General Brigham.
Studien ble publisert i JAMA Network Open og fremhever behovet for forsiktighet ved bruk av AI i tidlig medisinsk diagnostikk. Forskere anbefaler at AI-verktøy bør brukes som et supplement til, og ikke en erstatning for, profesjonell medisinsk rådgivning.