L’Intelligenza Artificiale può aiutare i medici a capire chi è depresso, ma è importante che sia trasparente: su cosa basa i suoi risultati? Il progetto FAITH ha sviluppato un sistema di IA per stimare il rischio di depressione in chi è guarito da un tumore. Deep Blue si è occupata dell’interfaccia che mostra ai medici come ragiona l’algoritmo.
Intelligenza Artificiale, spiegabile è meglio
Cosa aspettarsi da un algoritmo di Intelligenza Artificiale? Che funzioni, naturalmente. Ma pure che sia “trasparente”: come e perché restituisce un certo risultato dovrebbe essere compreso soprattutto da chi non ha alcuna competenza di programmazione. Non è un requisito secondario, quest’ultimo: dalla spiegabilità dell’IA (AI Explainability) dipende la fiducia di chi la usa non tanto sui risultati dell’algoritmo quanto sul “ragionamento” che ha portato a quei risultati. E da questa fiducia dipende l’efficacia della partnership uomo-macchina. In tutti i campi, compreso quello medico.
IA in medicina, potenzialità e criticità
Le applicazioni di IA in medicina sono molto discusse, anche se ancora non pervasive come ci si aspetterebbe in base a quanto se ne parla e scrive. L’IA è già affermata nella diagnostica per immagini: un “occhio” virtuale ben allenato sa cogliere in una radiografia o in un referto istologico potenziali indizi di malattia (un tumore per esempio) come e talvolta meglio di un medico. Un’altra area di interesse, più futuristica però, è quella predittiva: usare gli algoritmi di IA per predire il rischio di sviluppare una determinata malattia (anche anni prima che si manifestino i sintomi come nel caso del Parkinson) oppure la risposta di un paziente a una cura in base alla sue caratteristiche o storia clinica. C’è grande fiducia anche nella potenza di calcolo degli algoritmi per trovare nuovi farmaci, particolarmente nuovi antibiotici.
Supporto alla diagnosi e predizione del rischio di malattie supportate dall’IA riguardano pure i disturbi mentali. La possibilità di cogliere – anche precocemente – certi segni di un disturbo del comportamento attraverso dati raccolti da dispositivi indossabili (smartphone o smartwatch) e analizzati da algoritmi di IA è un’occasione preziosa. Ma controversa, perché c’è in ballo la raccolta di dati sensibili e perché, come detto, l’intrinseca impenetrabilità dell’IA può pregiudicare l’utilizzo di questi sistemi da parte dei medici. Il rischio, insomma, è che questi modelli rimangano chiusi nel cassetto.
Spiegare i risultati dell’IA ai medici: la tecnica utilizzata in FAITH
“Uno dei grandi temi dell’IA è proprio come spiegare i risultati di un algoritmo alle persone, la cosiddetta XAI o eXplainable Artificial Intelligence. Non c’è un solo modo, le spiegazioni possibili dipendono dai ruoli delle persone a cui sono destinate, dall’argomento trattato, dai modelli di IA utilizzati”, dice Giuseppe Frau, computer scientist, a capo dell’area tech di Deep Blue. Per esempio, si può puntare sullo human-AI teaming: oltre che rappresentare l’output finale, il processo può essere “spezzettato” in più fasi in modo che l’operatore possa consultare e intervenire sui passaggi e risultati intermedi. “Anziché spiegarti il risultato ci arriviamo insieme, rompiamo il task in più parti in cui ognuno può intervenire, e questo intervenire rende l’utente più consapevole di come l’algoritmo è arrivato alla sua decisione”, spiega Frau. Oppure si può procedere per analogia, fornendo esempi simili che hanno portato alle stesse conclusioni.
In FAITH, progetto europeo mirato allo sviluppo di un sistema di IA per aiutare i medici a valutare il rischio di depressione in persone guarite da un tumore (ne avevamo parlato qui), i ricercatori del consorzio hanno optato per una soluzione basata sul feature ranking. Prima di vedere di cosa si tratta, due parole sul progetto appena concluso. L’applicazione di IA per smartphone sviluppata dai programmatori di FAITH è stata scaricata da oltre 200 ex-pazienti oncologici di due ospedali in Spagna e Portogallo. Per mesi ha raccolto dati su attività fisica, sonno, nutrizione e tono della voce (c’è una letteratura scientifica a supporto dell’ipotesi che il modo in cui parliamo può essere spia di disturbi dell’umore come la depressione) dei partecipanti.
Usando questi dati è stato sviluppato un modello di IA (le previsioni su cui è stato addestrato sono state le valutazioni psicologiche di professioniste e professionisti della salute mentale nei due ospedali di reclutamento degli ex-pazienti) che ha permesso di stimare il rischio di depressione delle persone sopravvissute a un tumore basandosi appunto sulle informazioni relative alle loro abitudini quotidiane. “Si tratta di uno strumento di monitoraggio, non diagnostico, che permette al medico di decidere se approfondire lo stato di salute del paziente, fungendo da ponte anche nei periodi in cui l’incontro fisico può risultare più difficile (come è successo in passato per la pandemia, ma anche per altri motivi come scarsità di risorse o lontananza fisica)”, precisa Frau.
Un’interfaccia a misura di medico
Considerare la spiegabilità dell’IA nel disegno dell’interfaccia per i medici è stata una delle parti più delicate del lavoro, come spiega Frau che con Deep Blue ha lavorato a questa parte del progetto. “Siamo partiti dall’analisi delle soluzioni di XAI già disponibili ma ci siamo subito resi conto che erano pensate per sviluppatori, cioè per chi mette a punto la tecnologia e lavora per migliorare le sue prestazioni piuttosto che per chi la usa veramente – spiega l’esperto – quindi abbiamo iniziato a pensare a un modo diverso, più intellegibile, di rappresentare il ‘ragionamento’ dell’algoritmo. Abbiamo scelto un metodo di spiegazione basato sul feature ranking che mostra quali, tra un insieme di fattori, sono quelli più importanti nel determinare un certo risultato”.
Nel caso di FAITH i fattori “candidati” sono stati scelti assieme a medici, psico-oncologi e psichiatri e sono quelli generalmente considerati importanti per la salute mentale (sul protocollo della raccolta dati i ricercatori hanno pubblicato uno studio sulla rivista BMC Psychiatry). Si tratta delle categorie su cui l’applicazione ha raccolto i dati negli ex-pazienti (attività fisica, sonno, nutrizione, tono della voce) declinate secondo diversi indici: numero di passi giornalieri o calorie bruciate, per esempio; ore di sonno, numero di risvegli notturni, bicchieri d’acqua bevuti, oscillazioni di peso, ecc.
“L’interfaccia grafica presenta quindi ai medici un rischio di depressione accompagnato da una spiegazione in termini di ‘peso’ di questi diversi fattori – prosegue Frau – per esempio, il sistema può dire al medico che un ex-paziente oncologico ha un rischio di sviluppare una depressione severa del 75% e che l’attività fisica come categoria e le ore di sonno come indice hanno contribuito rispettivamente al 30 e 12% nel determinare il suddetto rischio”.
A questo primo livello di lettura ne seguono altri più approfonditi che mostrano l’importanza dei diversi fattori per la persona sia in un momento specifico (Latest prediction) sia normalmente (General behaviour), ma anche le differenze tra individuo (Individual level) e popolazione (Population level).
Perché un modello individuale e uno di popolazione? Per preservare la privacy dei pazienti, FAITH ha adottato un approccio chiamato Federated Learning che prevede un modello di IA per ogni singola persona, addestrato localmente sul suo smartphone in modo che nessun dato sensibile sia inviato ad un server centrale. Quindi ogni modello è specializzato sui dati di una persona, sulle sue abitudini e sul suo stato attuale. Questi modelli individuali – ma non i dati sensibili – confluiscono infine in un modello centrale che rispecchia la popolazione osservata, l’insieme dei pazienti, per permettere un confronto e un’ulteriore analisi. “L’importanza relativa dei diversi fattori produce intrinsecamente vari livelli di lettura: quello per la persona, per la popolazione, quello relativo al momento specifico o generalmente rispetto alle abitudini e allo stile di vita – spiega l’esperto – riconoscere la diversità di questi fattori e calarli nella realtà clinica mostrandoli ai medici in modo intellegibile è stata la parte più complessa del lavoro”.
Certezza sull’affidabilità dei dati
L’interfaccia restituisce anche un’altra informazione importante: per ogni categoria e indice viene indicata la quantità di dati raccolti e quindi l’affidabilità del loro contributo nella determinazione del rischio. “In questo modo il medico può capire quanto fidarsi di un certo dato – continua l’esperto – cioè: se il modello mi dice che l’attività fisica per un ex-paziente non è importante, è perché non lo è davvero oppure perché il modello in ingresso ha ricevuto pochi dati di quel tipo? I dati raccolti sono quelli con cui addestriamo i nostri modelli, tenerne traccia e comunicare quali aree sono coperte è alla base della trasparenza e della spiegabilità”.
“Si parla molto di spiegabilità dell’IA ma in pratica sono ancora poche le soluzioni proposte per risolvere questa problematica – dice Frau – non si tratta solo di includere nella maniera adatta un gran numero di informazioni, cosa di per sé complessa. È necessario prima ‘progettare’ la spiegabilità: identificare i dati a disposizione, facendo i conti con i tecnicismi dei modelli IA, e tradurli in indicazioni utili alla spiegazione calandole nel contesto di riferimento che possiede sempre le sue complessità intrinseche”. “In questo senso FAITH è stato un progetto pioneristico, abbiamo gettato le fondamenta di un modello sì da migliorare, ma già definito e centrato su quelli che sono i bisogni degli utenti ‘reali’ della tecnologia, professionisti che nella maggior parte dei casi non sanno nulla di funzioni matematiche ma cercano nell’IA un alleato affidabile e, soprattutto, comprensibile”, conclude l’esperto.