I Large Language Models (LLM), come ChatGPT e Gemini, sono al centro di un crescente interesse per le loro potenzialità in ambito medico. Tuttavia, la loro reale efficacia in un contesto clinico rimane ancora poco esplorata. Un gruppo di ricercatori dell’Università degli Studi di Milano e dell’ASST Santi Paolo e Carlo ha condotto uno studio sperimentale per valutare l’affidabilità di questi modelli in un contesto simile a quello di una prima visita neurologica, utilizzando casi clinici reali e ponendoli a confronto con la diagnosi di specialisti umani.
Lo studio: ChatGPT e Gemini messi alla prova
Il lavoro, pubblicato sul Journal of Medical Informatics Research, ha coinvolto 28 pazienti anonimi della Clinica Neurologica dell’Ospedale San Paolo. I ricercatori hanno chiesto ai modelli di formulare diagnosi e piani di indagine a partire dalle stesse informazioni fornite ai neurologi.
I risultati hanno mostrato che i medici hanno raggiunto un’accuratezza diagnostica del 75%, mentre ChatGPT si è fermato al 54% e Gemini al 46%. Entrambi i modelli, inoltre, hanno mostrato una tendenza a sovra-prescrivere esami diagnostici, nel 17–25% dei casi, segnalando un approccio meno calibrato rispetto all’esperienza clinica umana.
L’importanza della supervisione umana
“Questo studio dimostra che, sebbene i LLM come ChatGPT e Gemini abbiano un potenziale interessante come strumenti di supporto, al momento non sono ancora pronti per prendere decisioni cliniche autonome”, spiega Natale Maiorana, neuropsicologo e primo autore dello studio.
La professoressa Sara Marceglia, coordinatrice della ricerca, sottolinea la necessità di una supervisione umana: “Abbiamo lavorato con versioni pubbliche e generaliste di questi modelli, senza addestramento medico specifico. L’intelligenza artificiale può essere utile, ma va integrata responsabilmente nei processi clinici”.
Verso un’integrazione sicura e formativa dell’AI in medicina
Il messaggio conclusivo dello studio è duplice: cautela e ottimismo. “L’intelligenza artificiale è una risorsa promettente, ma oggi non può sostituire il giudizio clinico umano”, afferma Alberto Priori, direttore della Neurologia dell’Ospedale San Paolo e ideatore della ricerca.
Priori auspica una futura integrazione dell’AI nella pratica clinica, supportata da una formazione specifica per studenti e specializzandi, e da rigorosi protocolli di validazione. Un’ulteriore implicazione riguarda anche il pubblico generale: l’uso dei LLM per autodiagnosi o interpretazioni personali dei sintomi deve essere affrontato con estrema prudenza.