Milioni di americani si affidano a Internet per rispondere a domande sulla propria salute. Il rilascio pubblico di potenti modelli di intelligenza artificiale come ChatGPT non ha fatto altro che accelerare queste tendenze.
In un ampio sondaggio , più della metà degli adulti americani ha riferito di aver inserito le proprie informazioni sanitarie in un modello linguistico di grandi dimensioni (LLM). E c’è motivo di credere che questi modelli potrebbero apportare un valore reale a queste persone, come il caso di una madre che, dopo aver visto 17 medici e non aver ricevuto alcuna diagnosi per suo figlio con dolore cronico, ha inserito i rapporti della risonanza magnetica e la storia aggiuntiva in ChatGPT. Ha restituito una diagnosi di sindrome del midollo ancorato , che è stata successivamente confermata – e operata – da un neurochirurgo.
Questa storia non è unica. Le diagnosi mancate o ritardate danneggiano i pazienti ogni giorno. Ogni anno, circa 795.000 americani muoiono o diventano permanentemente disabili a causa di diagnosi errate. E queste diagnosi errate non sono esclusivamente “zebre” rare come la sindrome del midollo ancorato. Solo una quindicina di malattie, molte delle quali comuni, come le malattie cardiache e il cancro al seno, rappresentano la metà dei danni gravi . Più un individuo è malato, maggiore è la posta in gioco e più comuni diventano questi errori. In un recente studio su persone ricoverate in ospedale e poi trasferite in un reparto di terapia intensiva perché le loro condizioni erano peggiorate, il 23% ha avuto un errore diagnostico che ha influito sul loro caso; Il 17% di questi errori ha causato danni gravi o morte.
Sebbene numerosi fattori, molti dei quali fuori dal controllo dei medici, siano in gioco negli errori diagnostici, la cognizione umana gioca un ruolo importante. Questi problemi sono stati da tempo compresi dalla comunità medica: l’Institute of Medicine ha pubblicato il suo storico rapporto “To Err is Human” nel 1999, con raccomandazioni esaustive per affrontare gli errori diagnostici. Ma 25 anni dopo, gli errori diagnostici rimangono ostinatamente persistenti.
Mentre molte persone potrebbero immaginare che un medico si avvicini alla diagnosi in modo molto simile a Sherlock Holmes – o al dottor House – raccogliendo diligentemente fatti da confrontare con la sua conoscenza enciclopedica della malattia, la realtà è molto più prosaica. Decenni di studi psicologici, influenzati dal lavoro pionieristico di Danny Kahneman e Amos Tversky, hanno dimostrato che la diagnosi è soggetta agli stessi prevedibili pregiudizi ed euristiche di altri domini della conoscenza. Ad esempio, i medici del pronto soccorso avevano meno probabilità di eseguire test per un’embolia polmonare (un coagulo di sangue nei polmoni) quando le informazioni del triage menzionavano l’insufficienza cardiaca, anche quando dati oggettivi e sintomi documentati suggerivano un’embolia polmonare. Ciò ha suggerito che i medici fossero rimasti bloccati alle prime informazioni fornite loro, un problema chiamato bias di ancoraggio.
I medici fanno un pessimo lavoro nel valutare la probabilità che i pazienti abbiano malattie e il modo in cui i test modificano tali probabilità – e sono facilmente superati dai modelli linguistici generici. Decenni di ricerca hanno similmente dimostrato il diffuso coinvolgimento di altri bias cognitivi come il bias di disponibilità, il bias di conferma e la chiusura prematura nel processo diagnostico.
Da quando ChatGPT è stato rilasciato al pubblico alla fine del 2022, ci sono state centinaia di dimostrazioni delle capacità di ragionamento diagnostico di modelli linguistici di grandi dimensioni per scopi generali e altri modelli di intelligenza artificiale su un’ampia gamma di compiti diagnostici generali, alcuni dei quali abbiamo eseguito con vari collaboratori . Riteniamo che esistano prove convincenti che l’intelligenza artificiale, integrata in modo sicuro nel flusso di lavoro clinico, potrebbe essere utile oggi per affrontare alcuni dei limiti della cognizione umana per la diagnosi medica. In particolare, l’intelligenza artificiale potrebbe essere resa disponibile come servizio di “seconda opinione” in ospedale per assistere medici e altri professionisti sanitari in casi medici complessi e anche per verificare eventuali punti ciechi nel ragionamento diagnostico. I servizi di seconda opinione con medici umani – certamente su scala molto più piccola – hanno già dimostrato di poter fornire un valore reale ai pazienti.
Come sarebbe in pratica?
Costruire un sistema di seconda opinione alimentato da un ampio modello linguistico non rientra più nel regno della fantascienza. In qualità di medico che cura i pazienti (AR) e ricercatore di intelligenza artificiale medica (AM), immaginiamo un sistema che consenta a un medico curante, utilizzando la cartella clinica elettronica, di effettuare un “ordine”. Ma invece di selezionare un test diagnostico, il medico riassumerebbe la domanda clinica su un paziente nello stesso modo in cui parlerebbe con un collega. Dopo aver inviato l’ordine, la domanda, insieme all’intero grafico, verrebbe inviata a un ambiente informatico sicuro in cui un LLM elaborerebbe e fornirebbe una raccomandazione su possibili diagnosi, punti ciechi e opzioni terapeutiche.
Proprio come nel caso di apertura, in cui la diagnosi di sindrome del midollo ancorato è stata confermata da un neurochirurgo, le raccomandazioni che emergono dal modello verrebbero prima esaminate da un medico che funge da essere umano nel circuito per prevenire errori evidenti e allucinazioni (dove un’intelligenza artificiale modello spesso afferma con sicurezza inesattezze fattuali). Dopo questa revisione, il secondo parere verrebbe rinviato al medico richiedente per essere inserito nella cartella clinica ed esaminato dal medico ordinante.
Analogamente alle seconde opinioni umane, non è essenziale che il medico richiedente segua le raccomandazioni emerse dal LLM. Ma il semplice processo di considerazione di altre opzioni può aiutare a ridurre gli errori diagnostici . E a differenza dei servizi di seconda opinione umana, i costi di gestione del modello possono essere misurati in centesimi e il modello può servire decine di medici e i loro pazienti in parallelo.
A dire il vero, ci sono rischi evidenti che dovrebbero essere mitigati nei primi studi con uno stretto coinvolgimento umano. Gli LLM contengono i pregiudizi etnici, razziali e di genere dei dati su cui sono stati formati, che potrebbero influenzare le seconde opinioni in modi imprevedibili e dannosi. Gli LLM sono anche capaci di allucinazioni; sebbene anche gli esseri umani commettano errori, le allucinazioni dell’intelligenza artificiale possono essere più gravi e avere maggiori probabilità di causare danni. Avere un esperto umano nel circuito sarebbe assolutamente essenziale, soprattutto nei primi studi.
Tuttavia, la posta in gioco nel mantenere l’attuale tasso di errori diagnostici è così alta, e altri tentativi di ridurre gli errori non sono riusciti a intaccare in modo significativo, che riteniamo che sia giunto il momento di iniziare a studiare queste tecnologie. Per prendere in giro il vecchio detto, errare è umano, quindi l’intelligenza artificiale deve esprimere la propria opinione.
Riproduzione Stat News