‘I ChatBot medici con IA sbagliano nel 70% dei casi’ – Medicina – Ansa.it

Arrivano a toccare il 70% le risposte errate nei ChatBot medici di Intelligenza artificiale: lo svela uno studio che ha ricevuto uno dei 4 premi assegnati dall’ordine dei medici di Milano dedicati a Roberto Anzalone (una figura storica della medicina milanese). Su 200 domande ha risposto con almeno un errore in circa il 70% dei casi e con riferimenti bibliografici non accurato o addirittura inesistenti in circa il 30% dei casi.

Lo studio è pubblicato sul European Journal of Pathology, l’organo ufficiale della European Society of Pathology (ESP) e arriva alla conclusione che resta ancora insostituibile “l’occhio clinico del patologo, e come l’intelligenza artificiale debba essere considerata un utile supporto, ma non un sostituto della competenza umana”.

“Il nostro progetto, nato nel 2023 – chiarisce Vincenzo Guastafierro, specializzando in Anatomia Patologica presso l’Istituto Clinico Humanitas, della Humanitas University di Rozzano – ha voluto stimare i rischi legati all’uso di strumenti di Intelligenza Artificiale (IA) nella pratica clinica, in particolare dei chatbot utilizzate come supporto all’attività diagnostica e come strumento per l’apprendimento. Abbiamo sottoposto all’IA veri e propri quesiti clinici su diverse sotto specialità, evidenziando errori di risposta in circa il 70% dei casi e riferimenti bibliografici inaccurati o inesistenti in circa il 30% dei casi. Si tratta dunque di strumenti che vanno usati con estrema cautela, perché possono indurre decisioni diagnostiche inappropriate con impatto negativo sulle scelte terapeutiche”.

Nello studio i ricercatori hanno creato cinque scenari clinici, simulando un medico patologo che utilizza ChatGPT per affinare le sue diagnosi con 200 domande.
Ogni scenario è stato allineato alle attuali linee guida diagnostiche e validato da patologi esperti, ed è stato sottoposto a domande aperte o a risposta multipla, con o senza riferimenti scientifici. “ChatGPT – si legge nello studio – ha fornito risposte utili nel 62,2% dei casi e il 32,1% degli output non conteneva errori, mentre i restanti presentavano almeno un errore. ChatGPT ha fornito 214 riferimenti bibliografici: il 70,1% corretti, il 12,1% inaccurati e il 17,8% inesistenti”. Quest’ultimo dato ha stupito molto i ricercatori: l’Ia aveva costruito completamente una realtà inesistente, citando fonti che non ci sono nella realtà ma così ben costruite da essere verosimili. Fra gli errori più eclatanti rilevati, l’Ia ha sbagliato una diagnosi di carcinoma alla pelle e in un altro ha diagnosticato un tipo di tumore al seno differente da quello reale, producendo anche due fonti bibliografiche sbagliate.

    Il dato suscita quindi una riflessione importante nella categoria medica che fa e farà sempre più uso dell’intelligenza artificiale, ma anche sui pazienti che ne fanno uso per le autodiagnosi. Sebbene ChatGPT abbia fornito risposte utili in un terzo dei casi, infatti, la frequenza degli errori e la variabilità ne sottolineano l’inadeguatezza per l’uso diagnostico di routine.
    “L’imprecisione dei riferimenti – osservano i ricercatori – suggerisce anche cautela come strumento di autoapprendimento per i medici. È essenziale riconoscere il ruolo insostituibile dell’essere umano”.
    Gli studi andranno avanti, ha spiegato Guastafierro, utilizzando le versioni più aggiornate per comprendere l’evoluzione e la crescita di affidabilità di questi strumenti nel tempo.

Source link