ChatGPT meglio degli studenti di medicina nei complessi esami di assistenza clinica

ChatGPT, il più noto tra i sistemi di intelligenza artificiale che hanno suggestionato l’opinione pubblica negli ultimi mesi, ha superato gli studenti di medicina del primo e del secondo anno nel rispondere alle impegnative domande dell’esame di assistenza clinica. Lo ha evidenziato un nuovo studio condotto da un gruppo di ricercatori di Stanford, i cui risultati suggeriscono la necessità di un nuovo approccio all’insegnamento dei medici di domani.

Il sistema di intelligenza artificiale era già stato chiamato ad affrontare l’esame di scienza medica degli Stati Uniti (USMLE) strutturato su domande a scelta multipla, obbligatorio per un medico che voglia esercitare la professione. Tuttavia, adesso i ricercatori di Stanford hanno voluto sottoporlo a un test più complesso che prevede domande che richiedono agli studenti abilità di ragionamento clinico, per esempio nell’elaborazione di possibili diagnosi, e risposte complesse e aperte.

ChatGPT

Nell’articolo pubblicato su JAMA Internal Medicine, i ricercatori sostengono che il modello ChatGPT ha ottenuto in questo tipo di test una media di oltre quattro punti in più rispetto agli studenti. “Siamo rimasti molto sorpresi da come ChatGPT si sia comportato bene su questo tipo di domande di ragionamento medico a risposta libera superando i punteggi dei partecipanti umani al test”, afferma Eric Strong, professore presso la Scuola di Medicina di Stanford e autore dello studio.

“L’insegnamento e la verifica del ragionamento medico possono essere completamente stravolti dai nuovi strumenti di intelligenza artificiale” aggiunge Alicia DiGiammarino, responsabile dell’istruzione del secondo anno di pratica medica presso la Scuola di Medicina. “ChatGPT e altri programmi simili stanno cambiando il modo in cui insegniamo e pratichiamo la medicina”.

I ricercatori hanno utilizzato la più recente versione di ChatGPT, denominata GPT-4 e rilasciata nello scorso marzo. I vari casi su cui studenti e intelligenza artificiale sono stati chiamati a esprimersi presentavano descrizioni testuali che vanno da diverse centinaia a mille parole con molti dettagli estranei, come condizioni mediche croniche e farmaci non correlati, esattamente come accade nelle cartelle cliniche dei pazienti nella vita reale. L’IA ha dunque dovuto innanzitutto riconoscere le informazioni superflue, in modo da escluderle per la formulazione della sua analisi.

Analizzare il testo e comporre risposte originali è certamente più difficile che rispondere (in non più di un paragrafo) alle domande a scelta multipla del test USMLE. “Non è estremamente sorprendente che ChatGPT e programmi simili funzionino bene con domande a scelta multipla”, afferma Strong. “Basta ricordare delle informazioni per poter rispondere, qualcosa su cui ChatGPT e soci sono fin troppo bravi. Ben più difficile è una domanda a risposta aperta e libera”.

I ricercatori hanno modificato leggermente le domande in modo da non sottoporre ChatGPT a casi di interpretazioni errate. Dopo aver modificato le domande di conseguenza, hanno registrato le risposte del chatbot e le hanno trasmesse a valutatori esperti della facoltà. I voti del programma AI sono stati quindi confrontati con quelli degli studenti di medicina del primo e del secondo anno che avevano affrontato gli stessi problemi.

Tra le altre cose, i ricercatori hanno notato un netto miglioramento con la versione GPT-4 rispetto alla 3.5. Mentre la precedente mostrava risultati paragonabili a quelli ottenuti dagli studenti, la nuova versione è molto più accurata. I risultati sono stati talmente lusinghieri da indurre a modificare anche il sistema di insegnamento stesso della medicina. L’assistenza clinica, in particolare, si basa molto sulla raccolta delle informazioni dalle fonti, una pratica in cui l’intelligenza artificiale può essere di grande supporto ai professionisti della medicina.

“Non vogliamo medici che dipendano così tanto dall’intelligenza artificiale a scuola da non riuscire a imparare a ragionare da soli sui casi”, afferma DiGiammarino. “Ma ho più paura di un mondo in cui i medici non sono addestrati a utilizzare efficacemente l’intelligenza artificiale”.

“Manca ancora molto affinché l’intelligenza artificiale prenda completamente il posto dei medici” aggiunge Strong. “Ma sicuramente a breve dovremo integrarla nella medicina di tutti i giorni”.