Nell’epoca dei Big Data a mancare sono proprio i DATI!

In parallelo all’evolver della pandemia di SARS-COV-2 in Italia si è osservato, in modo omogeneo su qualsiasi social network, il diffondersi di dubbie analisi dell’andamento del contagio nel Bel Paese. Da un lato il virus si propagava in Italia e dall’altro proliferavano plot con fit basati su analisi (poco credibili) della pandemia,
la plottite/fittite/modellite; chiamatela come volete, ha avuto chiaramente un andamento fattoriale!
La corsa al plot non è interessante, a meno che non si voglia analizzare i problemi della nostra società. Sono sicuramente interessanti i DATI alla base dei modelli, in quanto le ipotesi di un modello sono strettamente legate alle misure rilevate.

Parliamo dei dati pubblicamente disponibili.

Sappiamo che i dati della pandemia in Italia sono disponibili sul repository https://github.com/pcm-dpc/COVID-19 gestito dalla protezione civile. I dati forniti presentano una risoluzione geografica fino alla provincia.
I dati della pandemia in Italia mostrano una frenata della sua diffusione che però continua a persistere più a lungo di quanto sperato. L’andamento che osserviamo su scala nazionale è dovuto alla somma degli andamenti di diverse Regioni e anzi di diversi gruppi di Comuni in ogni Regione. L’epidemia si è sviluppata in ognuno in tempi diversi. Dunque, il dato nazionale è una somma incoerente di andamenti eterogenei e già questo rende difficile una previsione anche su scala regionale.
Eppure, dei dati migliori (Risoluzione livello comunale) sono sicuramente disponibili ma al momento non sono pubblici. Sarebbe opportuno rilasciare i dati dell’epidemia a livello comunale. Questo permetterebbe l’analisi geografica anche di grandezze importanti per la dinamica dell’epidemia, i.e. i ricoveri in terapia intensiva e la loro dislocazione comunale.
Verso la fine di marzo l’Istat ha rilasciato i dati relativi ai decessi per l’anno corrente 2020, questi dati possono essere confrontati con gli anni precedenti
(2015-2019), rilasciati dallo stesso istituto. Questo dataset contiene informazioni sull’età dei morti giornalieri a livello comunale. Il problema della copertura
di questi dati viene analizzato in un altro post sempre su questo blog, qui citiamo soltanto la necessità di estendere i dati aggiungendo gli anni (2010-2015).
Questo dataset è un buon punto di partenza per un’analisi, in quanto è presente il dettaglio comunale. Abbiamo arricchito questo dataset aggiungendo la geolocalizzazione e il numero dei residenti dei comuni, sempre da fonte Istat.

Parliamo di dati pubblicamente disponibili, ma difficilmente reperibili.

Il dettaglio comunale dell’andamento della pandemia è disponibile, in alcuni casi, in forma non strutturata, ad esempio sui giornali comunali (Eco di Bergamo, Brescia Today) ci sono informazioni dell’epidemia dei comuni nella provincia di Bergamo e di Brescia.
Siamo riusciti (risalendo la storia dei commit di un repository github) ad estrarre alcune fotografie temporali (5 giorni) dell’andamento dell’epidemia in Lombardia. Questi dati, avendo il dettaglio comunale, possono essere utilizzati in combinazione con i dati forniti da Istat.
Stiamo estendendo il database con i dati delle altre regioni, ad esempio siamo riusciti a trovare i dati comunali delle regioni Emilia-Romagna, Trentino-Alto Adige e Piemonte. Per le altre regioni non siamo a conoscenza di eventuali fonti.

Parliamo di dati disponibili e non che potrebbero aiutare l’analisi.

In due mesi dall’inizio dell’epidemia in Italia non vi è ancora traccia di un dataset con informazioni riguardo gli ospedalizzati. Le regioni coinvolte hanno dei buoni portali di Open Data (ad esempio su Open Data Regione Lombardia abbiamo trovato i dati delle RSA lombarde) dove reperire informazioni sulle strutture ospedaliere. In generale, i dati sugli ospedali italiani sono facilmente reperibile (dal sito del ministero della salute), ma sono di alcuna utilità se non arricchiti con la percentuale dei posti letto occupati.
Altri dati non pubblicamente accessibile sono quelli del SiSMG (Sistema di sorveglianza della mortalità giornaliera). Il SiSMG è attivo tutto l’anno in 34 città italiane e permette di identificare in maniera tempestiva eventuali variazioni della mortalità attribuibili a diversi fattori (epidemie, esposizioni ambientali, socio-demografici) che modificano i valori giornalieri o il trend stagionale. Vengono riportati i dati di mortalità, aggregati per settimana, per i soggetti di età maggiore o uguale ai 65 anni di età residenti e deceduti in 19 città (Aosta, Bolzano, Trento, Torino, Milano, Brescia, Verona, Venezia, Trieste, Bologna, Genova, Perugia, Civitavecchia, Roma, Frosinone, Bari, Potenza, Messina, Palermo). Il valore atteso (baseline) viene definito come media giornaliera settimanale sui dati di serie storica (5 anni precedenti) e pesato per la popolazione residente (dati Istat) per tener conto dell’incremento della popolazione anziana negli anni più recenti. L’acquisizione di questo dataset permetterebbe un integrazione dei dati Istat per i comuni mancanti e una validazione degli stessi per quelli presenti.

Parliamo di dati disponibili utili solo per fare quattro chiacchiere al bar (in tempi normali).

Ad inizio aprile i giganti della tecnologia (Google and Apple) hanno pubblicato le loro analisi sugli spostamenti nei paesi colpiti dal SARS-COV-2, compresa l’Italia. In particolare l’analisi è fatta tramite degli indicatori (per Apple 3 e per Google 6) sulla mobilità delle nazioni colpite e di alcune grandi città.
Questo sforzo è stato decantato come la scesa delle Big Tech sul campo di battaglia contro il coronavirus utilizzando le armi più potenti in loro possesso, ovvero i dati sugli spostamenti delle persone. Osserviamo che i dati (anonimizzati) non sono stati rilasciati, o meglio sono stati rilasciati i dati aggregati utili solo per rifare i grafici delle Big Tech con un font diverso. Non è possibile riutilizzare i dati per un’analisi diversa ed indipendente, non viene data una definizione degli indicatore e la loro derivazione a partire dai dati raw e non viene detto neanche il campione che è stato utilizzato.
Suggeriamo di utilizzare questi grafici nelle chat di famiglia per mostrare di essere più “intelligenti” con i familiari che si lamentano di vedere troppe persone in strada.
Questi grafici non sono chiaramente eventi miracolosi.
Esistono dei dati di mobilità italiani, ovvero le matrici di pendolarismo di Istat. Il file contiene i dati sul numero di persone che si spostano tra comuni e all’interno dello stesso comune, con dettaglio del motivo dello spostamento, del sesso, il mezzo di trasporto utilizzato, la fascia oraria di partenza e la durata del tragitto.
Questi dati sono aggiornati al 2011. Un dataset più recente è quello fornito dall Regione Lombardia sul portale Open Data, ovvero la Matrice Origine/Destinazione.
Permane il problema dell’ignoranza sui dati disponibili per le altre regioni italiane.

Riassumiamo il database (diagramma nella figura sotto) che abbiamo costruito per effettura l’analisi della pandemia: dati Istat di mortalità giornalieri, dati Istat geolocalizzazione comuni e totale popolazione, dati epidemia Lombardia (5 giorni), strutture ospedaliere Lombardia. Questo database è in fase di arricchimento con i dati dell’Emilia-Romagna e del Trentino-Alto Adige.

One thought on “Nell’epoca dei Big Data a mancare sono proprio i DATI!

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Create your website with WordPress.com
Get started
%d bloggers like this: