ChatGPT, famoso chatbot basato sull’intelligenza artificiale di OpenAi, ha di recente compiuto un’altra impresa degna di nota. Ha infatti superato esami universitari tra cui un famoso test di Medicina, ottenuto un master e passato esami di legge negli USA. È quanto emerge da alcuni studi pubblicati ulitmamente, di cui uno di essi non ancora sottoposto a rivisione dei pari. Nel seguente articolo esamineremo i risultati raggiunti dal modello nei test di medicina, dando un sguardo in dettaglio al suo comportamento.
Da qualche tempo, i progressi ottenuti con le Reti Neurali e il deep learning hanno trasformato il modo in cui affrontiamo un’ampia varietà di compiti. Dal settore industriale e produttivo a quello della finanza e i prodotti di consumo, l’intelligenza artificiale è più presente che mai.
Che si tratti di etichettare automaticamente oggetti e utenti nelle fotografie; tradurre testi quasi ad un livello umano o generare immagini a partire da testo, non c’è problema. Grazie alla capacità di costruire modelli di classificazione altamente accurati indipendentemente dal tipo di dati di input, oggi è possibile.
Ma mentre si è avuto tale impatto nei settori sopracitati, le applicazioni nell’assistenza clinica rimangono limitate. Diversi fattori infatti, tra cui la mancanza di interoperabilità tra i sistemi informatici sanitari, contribuiscono alla scarsità di dati strutturati e leggibili. Le apparecchiature perciò non sono in grado di sviluppare adeguati algoritmi di deep learning.
Anche quando questo succede, la loro qualità tende a essere molto variabile, e molti non riescono a generalizzarsi tra i vari contesti. Questo principalmente a causa della limitata riproducibilità tecnica, statistica e concettuale. Il corretto sviluppo di modelli di IA clinica richiede quindi tempo, risorse e, soprattutto, dati di addestramento altamente specifici per il problema. Tutti elementi che scarseggiano nel mondo della sanità.
Nell’ultimo periodo, il nuovo modello di intelligenza artificiale ChatGPT ha catturato l’attenzione perchè capace di eseguire una vasta gamma di compiti in linguaggio naturale. ChatGPT è un modello generale di Large Language Model (LLM) sviluppato recentemente da OpenAI, come detto nell’introduzione.
I LLM sono un nuovo tipo di algoritmo addestrato a prevedere la probabilità di una determinata sequenza di parole in base al contesto di quelle precedenti. Mentre la classe precedente di modelli di IA è costituita principalmente da modelli di Deep Learning (DL), progettati per apprendere e riconoscere modelli nei dati.
Pertanto, addestrati i LLM su quantità sufficientemente grandi di dati testuali, si potranno generare nuove sequenze di parole mai osservate in precedenza dal modello. Ma saranno parole che rappresentano sequenze plausibili basate sul linguaggio umano naturale.
ChatGPT si basa su GPT3.5, un LLM addestrato sul modello OpenAI 175B e su un ampio corpus di dati testuali provenienti da Internet. L’uso ripetuto dell’intelligenza artificiale ChatGPT ha mostrato risultati vicini al ragionamento deduttivo.
Gli scienziati hanno usato ChatGTP per effettuare ragionamenti clinici, testando le sue prestazioni su domande dell’esame di abilitazione medica degli Stati Uniti (USMLE). L’USMLE è un programma di test standardizzato in tre fasi, che copre tutti gli argomenti del bagaglio di conoscenze dei medici.
In particolare, il test spazia dalle scienze di base al ragionamento clinico, dalla gestione medica alla bioetica. La difficoltà e la complessità delle domande sono standardizzate e regolamentate, il che lo rende un substrato di input ideale per i test di IA. L’esame è ben consolidato e ha mostrato punteggi grezzi e proprietà psicometriche notevolmente stabili negli ultimi dieci anni.
I ricercatori hanno ottenuto 376 domande d’esame disponibili pubblicamente dalla versione campione dell’esame di giugno 2022 sul sito ufficiale dell’USMLE. Assicurandosi però, che nessuna delle risposte, delle spiegazioni o dei contenuti correlati fosse indicizzata su Google prima del 1° gennaio 2022. Data che rappresenta l’ultima accessibile al dataset di formazione dell’intelligenza artificiale ChatGPT.
Dopo aver eseguito vari test, i risulati hanno mostrato dati strabilianti. ChatGPT ha prodotto risposte e spiegazioni con una concordanza del 94,6% per tutte le domande. L’elevata concordanza globale è stata mantenuta per tutti i livelli d’esame e per i formati di input delle domande. Questi risultati indicano che ChatGPT presenta un’elevata conformità tra risposte e spiegazioni, che probabilmente riflette l’elevata coerenza interna del suo modello linguistico probabilistico.
Man mano che l’IA diventerà sempre più competente, sarà presto onnipresente, trasformando la medicina clinica in tutti i settori sanitari. Lo studio dell’IA è ormai entrato nell’era degli studi controllati randomizzati, ad esempio.
I LLM come ChatGPT stanno raggiungendo un livello di maturità che presto avrà un impatto sull’assistenza clinica in generale e sulla sua capacità di fornire un’assistenza sanitaria veramente personalizzata, compassionevole e scalabile.
Quindi è molto probabile che non sarà l’intelligenza artificiale a sostituire il nostro medico. In maniera molto più verosimile, sarà forse un medico che utilizza l’intelligenza artificiale a farlo.