IA e Cartelle Cliniche per Prevedere le Malattie

C’è un problema infrastrutturale enorme, quasi invisibile ma paralizzante, che affligge la medicina moderna: i dati ospedalieri nel mondo non parlano la stessa lingua. Non giriamoci attorno, la situazione attuale è un incubo logistico. Questo significa che se oggi addestriamo un potentissimo algoritmo di machine learning per prevedere il rischio di infarto in un ospedale di Londra, quello stesso algoritmo diventerà improvvisamente cieco, inutile e confuso se lo installiamo nei server di una clinica a New York.

Il motivo? I sistemi di codifica delle cartelle cliniche (i famosi EHR, Electronic Health Records) cambiano in modo drastico da nazione a nazione, e a volte persino da un ospedale all’altro nella stessa città. In Europa si usano determinati standard clinici, mentre negli Stati Uniti la registrazione dei dati è spesso guidata dai codici di fatturazione delle assicurazioni private (come l’ICD-10-CM).

Immaginate di dover far girare un software progettato nativamente per Mac su un vecchio computer Windows, senza avere a disposizione alcun emulatore. Il sistema semplicemente non riconosce i comandi. Fino ad oggi, l’unico modo per risolvere questo caos informatico era sedersi e mappare o tradurre i database manualmente. Un processo disperatamente lento, incredibilmente costoso e, soprattutto, incline a continui errori umani.

Ma un team internazionale di ricercatori, guidato da Matthias Kirchler (dell’Hasso Plattner Institute e del Digital Health Center) e Andrea Ganna (professore presso l’Institute for Molecular Medicine Finland - FIMM, Università di Helsinki), ha appena deciso di cambiare le regole del gioco, pubblicando uno studio che ha catturato l’attenzione dell’intera comunità scientifica sulla rivista npj Digital Medicine. Hanno sviluppato GRASP, un modello di intelligenza artificiale che ha dimostrato di poter prevedere l’insorgenza di 21 malattie diverse e la mortalità generale analizzando una mole di dati sbalorditiva: oltre un milione di persone.

La vera svolta, però, non è cosa il modello riesce a prevedere, ma come diamine ci riesce. Addestrato esclusivamente sui pazienti britannici (usando il mastodontico database della UK Biobank), GRASP è stato successivamente messo alla prova, totalmente “alla cieca”, su pazienti in Finlandia (tramite il progetto FinnGen) e negli Stati Uniti (usando i dati del Mount Sinai Health System di New York). Il risultato? Ha fatto saltare il banco. Ha letteralmente abbattuto le barriere linguistiche e di codifica dei dati medici, registrando un balzo in avanti delle performance predittive dell’88% sui dati finlandesi e del 47% su quelli americani rispetto ai vecchi modelli standard.

Vediamo nel dettaglio come hanno fatto a compiere questa magia tecnica. Perché per chi, come me, passa le proprie giornate dividendo la mente tra i laboratori di Scienze Biologiche alla Statale di Milano e i server dove costruiamo architetture digitali con Web Novis, questo studio rappresenta l’anello di congiunzione perfetto tra la biologia pura e la più alta ingegneria del software.

Il trucco semantico: Insegnare all’IA il “significato” intimo della malattia

I modelli predittivi classici — pensiamo alle foreste casuali o ad algoritmi molto usati in ambito data science come XGBoost — hanno un limite strutturale: trattano i codici medici come numeri freddi, isolati e privi di contesto. Se in Inghilterra una diagnosi di iperglicemia viene registrata nei server con il codice “A1”, e in America lo stesso identico problema viene salvato con il codice “B2”, il modello classico vede semplicemente due cose distinte. Non sa che sono la stessa malattia. Va in tilt.

Il team di Kirchler e Ganna ha avuto un’intuizione brillante: smettere di guardare i numeri e iniziare a guardare il significato delle parole. Hanno utilizzato un Modello Linguistico di Grandi Dimensioni (i famosi LLM, in questo caso specifico si sono affidati al motore text-embedding-3-large di OpenAI) per leggere le descrizioni testuali dei codici clinici e trasformarle in “vettori semantici”.

Fermiamoci un attimo. Cos’è un vettore semantico? In informatica, l’embedding è una tecnica affascinante che mappa le parole in uno spazio matematico multidimensionale. Immaginate un universo 3D infinito dove le parole simili fluttuano vicine tra loro. Grazie a questo passaggio fondamentale, GRASP non è più costretto a leggere un codice alfanumerico vuoto, ma “comprende” a livello profondo il concetto clinico. L’algoritmo capisce intimamente che “livello alto di glucosio nel sangue”, “iperglicemia” e “rischio diabetico” si trovano tutti nello stesso quartiere semantico di questo universo matematico. Non importa assolutamente quale strana sequenza di numeri il medico abbia digitato sulla tastiera a New York o a Helsinki: l’IA riconosce il sintomo dal suo significato intrinseco.

Una volta che i dati grezzi sono stati tradotti in questo linguaggio universale basato sui concetti, le informazioni vengono date in pasto a una rete neurale Transformer. Esatto, stiamo parlando della stessa architettura di base che fa funzionare ChatGPT. Solo che, in questo caso, la rete neurale non legge una sequenza di parole per comporre una frase, ma legge l’intera linea temporale clinica del paziente (visite, ricoveri, esami) come se fosse una storia. Analizzando la sequenza degli eventi passati, il Transformer calcola la traiettoria di rischio futuro.

La Validazione: Quando l’Algoritmo informatico incontra il DNA umano

Fino a qui, vi ho raccontato un’eccellente, forse ineguagliabile, opera di ingegneria dei dati. Ma la domanda che un biologo deve porsi è: si tratta di vera biologia? Un algoritmo iper-avanzato potrebbe benissimo trovare dei pattern matematici nascosti che funzionano in modo eccellente a livello puramente statistico, ma che non hanno alcun senso a livello fisiologico e clinico.

È proprio qui che i ricercatori hanno introdotto la vera genialità metodologica dello studio. Per dimostrare che GRASP non stava “barando” con la statistica, hanno applicato un test di validazione ortogonale. Hanno deciso di incrociare le previsioni sputate fuori dal modello informatico con i Polygenic Risk Scores (PRS) dei pazienti.

Che cos’è il PRS? È un indicatore puramente e rigidamente genetico. Si calcola sequenziando fisicamente il DNA di una persona e misurando milioni di piccole e impercettibili variazioni (chiamate SNPs, polimorfismi a singolo nucleotide) per determinare quale sia la sua reale predisposizione biologica e innata a sviluppare una determinata patologia nel corso della vita.

I ricercatori si sono posti una domanda da far tremare i polsi: le persone che il modello GRASP segnala come “ad altissimo rischio” guardando solo ed esclusivamente la loro cartella clinica passata, sono le stesse che hanno effettivamente una genetica svantaggiata per quella specifica malattia?

La risposta è stata un clamoroso, inequivocabile, sì.

Le previsioni fornite da GRASP hanno mostrato correlazioni significativamente più elevate con i punteggi di rischio poligenico per il 62% delle malattie analizzate, disintegrando i risultati ottenuti dai modelli tradizionali. Questo passaggio è la chiave di volta dell’intero studio. Ci dice a chiare lettere che il modello non sta semplicemente facendo data mining superficiale. Sta letteralmente ricostruendo la suscettibilità biologica reale di un essere umano. L’intelligenza artificiale, pur essendo stata addestrata solo su un mucchio di codici ospedalieri di eventi clinici passati, è riuscita a “fiutare” la genetica sottostante del paziente.

Trasparenza e Limiti Strutturali del Modello

Tuttavia, nel fare divulgazione scientifica rigorosa e seria, bisogna sempre sforzarsi di guardare oltre il fisiologico entusiasmo scaturito dai risultati e analizzare con occhio critico i limiti dello strumento. Gli stessi autori del paper dimostrano una profonda onestà intellettuale nell’evidenziare due criticità strutturali che dovranno essere risolte prima di un’adozione su scala globale.

In primo luogo, sebbene GRASP sia un vero mostro di generalizzazione e trasferibilità, la sua capacità di calibrazione assoluta del rischio deve essere aggiustata e rifinita localmente. Tradotto in parole semplici: il modello capisce perfettamente chi è a rischio tra i pazienti, ma per poter dire esattamente quale sia la percentuale numerica di quel rischio (ad esempio, il 15% o il 20% di probabilità di infarto a 5 anni), ha assoluto bisogno di conoscere l’incidenza di base di quella patologia nello specifico ospedale o territorio in cui viene installato.

In secondo luogo, c’è l’eterno, cronico problema dei dati di addestramento. Come abbiamo detto, lo studio ha utilizzato dati provenienti dal Regno Unito, dalla Finlandia e dagli USA. Parliamo in tutti i casi di sistemi sanitari di paesi ad alto reddito, che curano popolazioni prevalentemente (anche se non esclusivamente) di origine europea. Portare questo algoritmo in un paese in via di sviluppo, o pretendere di applicarlo in modo infallibile a minoranze etniche storicamente sotto-rappresentate nei database medici, richiederà inevitabilmente studi di validazione specifici per evitare distorsioni. Senza contare che, poggiandosi su un Large Language Model per estrarre gli embedding semantici, l’intero sistema eredita i bias e i pregiudizi che quell’LLM ha immagazzinato leggendo il web durante la sua fase di pre-addestramento.

Prospettive Future: Il superamento dei Silos

Leggere e destrutturare studi di questa immensa caratura tecnica conferma una convinzione che mi accompagna fin da quando ho iniziato il mio percorso accademico: il futuro dell’innovazione vera non risiede più nei vecchi silos disciplinari. La biologia, oggi, non può letteralmente più fare a meno dell’architettura del software avanzata, e, al tempo stesso, il web development di frontiera sta iniziando a modellare le proprie reti neurali e le proprie infrastrutture imitando proprio i principi della biologia.

Rendere i dati medici “portabili”, interoperabili e universali non è più solo una questione di comodità per i programmatori di database, ma un’esigenza clinica urgente, una questione di vita o di morte su scala globale. Strumenti brillanti come GRASP ci mostrano in modo inequivocabile che stiamo finalmente smettendo di piegare la complessità della medicina ai rigidi limiti imposti dai nostri database degli anni ’90. Stiamo, per fortuna, iniziando a costruire algoritmi capaci di comprendere la medicina per quello che è realmente: complessa, tremendamente sfumata, ma assolutamente universale.

Fonti e Approfondimenti

[ARTICOLO PRINCIPALE RIASSUNTO] Kirchler, M., Ferro, M., Lorenzini, V. et al. Large language models improve transferability of electronic health record-based predictions across countries and coding systems. npj Digit. Med. 9, 177 (2026). DOI: 10.1038/s41746-026-02363-5
Bycroft, C. et al. The UK Biobank resource with deep phenotyping and genomic data. Nature 562, 203–209 (2018).
Kurki, M. I. et al. FinnGen provides genetic insights from a well-phenotyped isolated population. Nature 613, 508–518 (2023).
OHDSI collaborative. Observational Health Data Sciences and Informatics (OHDSI): Opportunities for Observational Researchers. Stud. Health Technol. Inform. 216, 574-578 (2015).
Vaswani, A. et al. Attention is all you need. In Proc. 31st International Conference on Neural Information Processing Systems (2017).

Hai Bisogno di Aiuto con il Tuo Progetto?

Raccontaci la tua idea. Ti rispondiamo entro 24 ore con una consulenza gratuita e personalizzata.

Scopri il servizio correlato →

Contattaci Ora