Scienza dei dati: decisioni informate, oltre l'intuizione

© Lukas
© Lukas

Servizio comunicazione istituzionale

30 aprile 2025

Creiamo e consumiamo dati in una quantità e varietà di modi che fatichiamo a immaginare: un insieme di tracce che raccontano chi siamo,le nostre abitudini e i nostri comportamenti. Dati che possono migliorare la nostra qualità di vita, ma anche trarci in inganno se di scarsa qualità o addirittura manipolati. Per questo la nostra società necessita di strumenti che permettano di ottimizzarne la gestione, l’analisi e l’interpretazione. È questo il campo di studio della cosiddetta “Data Science”, evoluzione moderna della vecchia statistica, della quale si occupa il gruppo dell’USI diretto dal Professor Ernst C. Wit, Professore ordinario presso la Facoltà di scienze informatiche dell'USI. Uno strumento fondamentale per comprendere sistemi sempre più complessi e interconnessi.

Professor Wit, cosa significa comprendere il mondo attraverso la scienza dei dati?

"La scienza dei dati combina metodi statistici, tecniche computazionali e conoscenze specifiche del settore per individuare relazioni all’interno dei dati estratti. Di conseguenza, ci dà la possibilità di prendere decisioni informate, che vanno oltre l’intuizione, anedotti o i fatti episodici. Il nostro compito è separare l’informazione dal rumore di fondo, cercare delle correlazioni e capire perché certe cose si verificano. Possiamo così comprendere meglio i comportamenti sociali, le tendenze economiche e persino prevedere sviluppi futuri con crescente accuratezza. Questo non vuol dire che la scienza dei dati può sostituire chi prende le decisioni: semplicemente può migliorare il processo decisionale e dunque aiutare a fare scelte migliori".

Ad esempio?

"Stiamo lavorando con un gruppo di esperti ambientali in Germania, Austria e Inghilterra sulla proliferazione delle specie invasive in Svizzera e in Europa. Stiamo lavorando su dati di circa 140 anni: abbiamo notizie su tutto quello che è successo ogni anno (quali specie sono arrivate, quando sono entrate in un determinato Paese ecc.), e cerchiamo di capire l’impatto delle attività umane sulla loro diffusione. In questo modo, forse, potremo evitare che alcune specie mettano piede sul suolo svizzero. In proposito mi è accaduto un simpatico malinteso..."

Ossia?

"Una volta mi hanno invitato in un liceo in Svizzera a parlare dell’invasione delle specie aliene. Con mia sorpresa si sono presentati moltissimi studenti. Dopo un po’ ho capito perché: per aliene intendevano extraterrestri. Allora abbiamo parlato di ipotetiche invasioni aliene. Abbiamo mostrato loro come la scienza dei dati è in grado di analizzare i dati disponibili sugli avvistamenti UFO e alla fine abbiamo concluso che non abbiamo evidenze per dire che siamo stati invasi dagli extraterrestri. È stato interessante".

Le persone comuni pensano che la scienza dei dati serva soprattutto al marketing, alla pubblicità, sui social media e simili. C’è ben di più, quindi...

"La scienza dei dati è sicuramente utilizzata anche in questi campi, però riguarda pure la vita di tutti i giorni. Nella sanità, ad esempio, una progettazione accurata degli esperimenti clinici combinata con un’analisi biostatistica rigorosa migliora le diagnosi e i piani di trattamento, in ambito finanziario l’analisi predittiva supporta la valutazione dei rischi e la scoperta delle frodi, e via dicendo".

Il passaggio dalla statistica alla scienza dei dati, allora, dove si colloca? Nel numero dei dati o c’è qualcosa di particolare?

"Il numero dei dati può essere piccolo come enorme, importa relativamente poco. Quello che è cambiato moltissimo è il livello informatico: c’è stata un’automatizzazione del processo, dunque ciò che forse vent’anni fa necessitava mesi per essere analizzato, adesso ci occupa per una settimana, un giorno, a volte ore".

Come riuscite, senza entrare nei dettagli tecnici, ad analizzare i dati raccolti e così facendo a costruire un modello interpretativo?

"Noi dobbiamo pensare, quando vediamo i dati, qual è stato il meccanismo che li ha generati. Se li pensiamo solo come numeri, sbagliamo. Dobbiamo sempre fare un passo indietro per analizzare il processo che li ha generati e solo dopo possiamo interpretarli. In questo senso la scienza dei dati è diversa dall’Intelligenza Artificiale (IA), quasi opposta. L’IA elabora grandi quantità di dati senza capire niente di quanto successo, ancor meno di quello che potrebbe succedere; la scienza dei dati invece prende quelli che ha, anche pochi, e cerca di interpretarli, di elaborare un modello per capirli e - se possibile - fare delle previsioni".

È possibile ignorare l’Intelligenza Artificiale?

"Non ho detto questo. Parliamo di due cose diverse. L’IA dispone di miliardi di immagini sui gatti e cani, non ha quindi bisogno di sapere che cosa è un cane e che cosa è un gatto. Se invece io parto da un modello statistico in cui definisco quali sono i parametri di cui voglio tenere conto difficilmente incorrerò in un problema simile. Abbiamo 140 anni di dati sulle specie invasive, però sono soltanto 140 anni. Vuol dire che è importante considerare non solo i numeri, ma anche il modello fisico che li ha generati. Se lavoriamo con un ospedale sull’arrivo dei pazienti al pronto soccorso, per ottimizzare i tempi di presa a carico dobbiamo pensare che i nostri dati sono le tempistiche: quando arrivano, quanto devono aspettare, ecc. Solo allora possiamo provare a elaborarli per arrivare a una risposta".

Non è chiaro: usate l’IA per le vostre elaborazioni oppure no?

"Certamente, ma come metodo tecnico. Ad esempio, in un progetto nazionale con un collega della Facoltà di scienze economiche ho analizzato il processo mondiale di innovazione degli ultimi cinquant’anni dal punto di vista dei brevetti e del modo in cui un brevetto è collegato agli altri. Abbiamo 15 milioni di brevetti con 120 milioni di interconnessioni: per analizzarli e cercare di dare una risposta abbiamo bisogno di tecniche che riescano a usare 120 milioni di numeri, e l’IA è una di queste".

Ogni tanto anche la scienza dei dati sbaglia?

"È chiaro che la scienza dei dati sbaglia, perché è un’attività umana e ogni attività umana è soggetta a errori. Assieme a colleghi esteri abbiamo scritto un articolo sulla risposta della scienza dei dati alla pandemia di COVID-19, articolo che abbiamo presentato il 10 aprile di quest’anno alla Royal Statistical Society di Londra. È relativamente critico, ma appunto perché rileva gli errori da noi commessi - errori che possono aver influenzato le politiche di sanità pubblica – al tempo stesso ci fornisce lezioni importanti per le crisi future".

Quali?

"Siamo stati un po’ troppo frettolosi con procedure invasive, come il lockdown. Per questo abbiamo sottolineato l’importanza del campionamento mirato e dei modelli validati, della corretta comunicazione del rischio e della necessità di considerare strategie di salute pubblica a lungo termine piuttosto che obiettivi a breve termine".

Per la vostra attività adoperate anche il supercalcolatore di Cornaredo, presso il Centro svizzero di calcolo scientifico (CSCS)?

"Lo usiamo molto, perché - come detto - abbiamo spesso bisogno di un livello di elaborazione dati molto elevato. Oltre a noi docenti, anche i miei studenti lo usano quasi ogni giorno da remoto. All’USI abbiamo un bellissimo Master in Data Science and high performance computing che non potremmo tenere senza..."

Come sarà, in futuro, la scienza dei dati?

"Se dal punto di vista tecnico si è sviluppata tanto, dal punto di vista concettuale è rimasta più o meno invariata: trovare dati, capirli, interpretarli... È pur sempre un’attività intellettuale: possiamo farci aiutare da un elaboratore, ma è ancora il nostro cervello che collega i numeri con il processo che li ha generati".

Sembra tutto fin troppo bello. Tuttavia quasi ogni cosa ha un aspetto negativo, una zona d’ombra da osservare e tenere sotto controllo. Dove si annida il pericolo, nel caso della scienza dei dati?

"Direi che è sempre una questione di etica, di equità e di trasparenza (da dove arriva questo dato? Chi l’ha raccolto? Chi l’ha elaborato e come?). Facciamo un esempio per assurdo: se noi analizzassimo la popolazione universitaria a inizio XX secolo, potremmo dedurne che – apparentemente - le donne non erano adatte alle attività intellettuali, cosa evidentemente errata. L’interpretazione dei dati dev’essere gestita con responsabilità, garantendo l’identificazione e l’attenuazione dei bias e dei pregiudizi sociali. Il nostro ruolo non si limita quindi all’analisi, ma si estende al pensiero critico e all’etica, ciò che assicura che le conclusioni siano non solo accurate, ma anche eque".

A livello di trasparenza, invece, come siamo messi?

"In Europa e in Svizzera stiamo affrontando il problema e abbiamo iniziato a darci delle leggi, in particolare per quanto concerne la protezione dei dati personali. Purtroppo, ci sono parti del mondo dove queste regole non esistono. Un altro problema importante che menzionerei è la riproducibilità dei risultati".

Ovvero?

"Significa che quando uno scienziato dei dati fornisce una risposta, questa deve essere trovata anche da altri. Se affermassimo che una certa malattia infettiva è grave sulla base di alcune osservazioni, ottenendo nuovi dati e facendo nuovi calcoli dovremmo ottenere approssimativamente lo stesso risultato. Ovviamente c’è sempre un margine di incertezza, ma la scienza dei dati può calcolarla. La scienza dei dati dovrebbe, e può, migliorare la riproducibilità promuovendo metodologie rigorose, pratiche di dati trasparenti e conclusioni interpretabili con dichiarazioni trasparenti del livello di certezza".

 

Contenuto prodotto e pubblicato in collaborazione con laRegione.

Facoltà

Rubriche