📣 Associazione onData - Newsletter #18

nov 21, 2022

Ciao,
grazie per essere qui a leggere questa newsletter, per avere invitato altre/i a iscriversi, per darci spesso spunti per i contenuti che pubblichiamo.

🙏Se vuoi sostenerci, puoi farlo con una donazione.

➡️ Per visualizzare questa newsletter per intero, apri questo link.

🔗 twitter | youtube

🧮Disabled Data: qualcuno ha detto "dati"?

Alla fine del 2021 Nicola Bruno (grazie mille) ci ha messo in contatto Francesca Fedeli di Fight the stroke foundation.

Francesca voleva capire se le azioni che facciamo per "fare uscire" dei dati difficilmente reperibili o inesistenti, potessero servire al suo scopo e in particolare ai dati sulle persone con disabilità e sulle loro condizioni di vita:

Poter disporre di dati aggiornati, accurati e fruibili, permetterebbe di inquadrare meglio il fenomeno, aprendo nuove possibilità e prospettive per ripensare le politiche, i prodotti e i servizi, le strade, i quartieri, le città, e immaginare una società più equa e inclusiva.

Ci siamo messi in azione poco dopo, ma non era per nulla banale. Se vuoi cercare dati su un dominio, lo devi conoscere un po'. E lo stesso vale se vuoi fare richieste (a enti, gruppi di ricerca, ministeri, ecc.). Ed è una regola con cui facciamo spesso i conti e da cui spesso dipende l'esito dell'azione.

Quello che sembrava inizialmente un muro troppo alto, è stato reso superabile da Francesca - vi consigliamo di conoscerla, a partire da questo video - e dalla modalità di lavoro che è stata messa in piedi. È stata creata una squadra di lavoro composta da "Fight the stroke", "Sheldon.studio" e noi di onData. In sintesi Sheldon doveva costruire il "racconto", testuale e visivo, dei dati sulla disabilità, e noi di onData dovevamo "andare in miniera" a estrarre i dati. E "Fight the stroke" metteva a disposizione la sua esperienza e quindi tutte le domande a cui provare a trovare qualche risposta a partire dai dati.

Il punto di partenza del progetto è la definizione di disabilità della Convenzione delle Nazioni Unite (ONU) del 2006:

coloro che presentano durature menomazioni fisiche, mentali, intellettive o sensoriali che in interazione con barriere di diversa natura possono ostacolare la loro piena ed effettiva partecipazione nella società su base di uguaglianza con gli altri.

Si sposta l'attenzione dall'individuo all'interazione con il contesto, rendendo la disabilità qualcosa che tocca e unisce tutte e tutti. E "andando in miniera" a cercare dati abbiamo subito constatato uno dei punti salienti: se volessimo raccontare la disabilità attraverso i suoi dati ci troveremmo immediatamente in una condizione di disabilità.

E da lì l'intuizione geniale del nome del progetto: Disabled Data.

Nelle prime settimane di lavoro, dialogando con Sheldon e in particolare conSimona Bisiani (una fantastica compagna di lavoro), emerge l'esistenza di un sito di Istat legato alla disabilità, ma non più raggiungibile: "Disabilità in cifre". Scriviamo allora a Istat a metà marzo 2022, per chiedere di ripristinarlo e circa 1 mese dopo è stato rimesso in piedi ed è raggiungibile qui.

Questa piccola cosa, è stato già in partenza un ottimo risultato del progetto. E ringraziamo Istat per l'ascolto.

Sfogliando "Disabilità in cifre" ci rendiamo conto che è però un sito di qualche anno fa, con una navigazione troppo "ricca". Se si vogliono scaricare tutti i dati, è necessario fare centinaia di click. Inoltre i dati sono resi disponibili in modalità pensate per essere lette dall'uomo, a schermo, non per essere processati in modo automatico per produrre sintesi (numeriche, descrittive e visuali). Abbiamo chiesto allora a Istat se fosse possibile ricevere allora i dati in bulk, ovvero (semplificando un po') come un unico file, ma ci hanno risposto che non era fattibile.

Il gruppo di lavoro ha allora definito quali fossero i dati di "Disabilità in cifre" da utilizzare per il progetto e noi ci siamo occupati di scaricarli in modo automatico e di strutturarli in modo che Sheldon.studio li potesse comodamente usare per "raccontarli".

Ci sarebbero tantissime altre cose ancora da aggiungere, ma preferiamo lasciarti continuare sul sito del progetto, che racconta molto bene quanto fatto. E sempre sul progetto potete ascoltare Francesca in una puntata di ThinkTallyTalk di Info Data.

Soltanto un'ultima nota finale: lavorare a partire da delle buon domande a cui rispondere, rende tutto più semplice e divertente e fa crescere. Sembra una frase da "cioccolattino", ma non è così frequente riuscire a farlo.

🙏Grazie Francesca!

📏Misurare gli impatti dell’Open Data!

Il tema della misurazione degli impatti dell’Open Data non è stato particolarmente dibattuto, specialmente in Italia. A nostro avviso è invece essenziale.

Misurare gli impatti di una policy è indispensabile e fa parte della filosofia della trasparenza alla base dell’Open Government.

Può essere d’aiuto il recente webinar "Measuring open data impact in Europe" organizzato il 30 settembre dal portale Open Data dell’Unione Europea. Ne ha parlato in modo strutturato Antonin Garrone, responsabile di data.gouv.fr ( il portale nazionale Open Data della Francia ) e componente di Etalab.

Nel suo intervento, che in gran parte condividiamo, ha definito 4 livelli di misurazione dell’impatto, chiarendo fin da subito che la materia è complessa e non hanno ancora del tutto chiaro come fare.

Il tema è certamente complesso e molto sfidante già da livello 2, ma ad essere onesti in Italia non ci si è posti nemmeno l’obiettivo di misurare il primo livello.

Non esiste, salvo rarissimi casi, una statistica precisa del numero di download e di visualizzazioni dei dataset pubblicati (a volte da molti anni). Non parliamo dei primi 5-10 più scaricati, ma delle statistiche di tutti i dataset.

Lo fa probabilmente soltanto la Regione Lombardia con un dataset anch’esso aperto, con oltre 250.000 record che per ogni dataset danno conto delle visualizzazioni e dei download per ogni mese !

Ecco: questo è utile, questo dovrebbero fare tutti i portali open data.

Forse allora potremmo iniziare a misurare qualcosa e trovare qualche risposta a qualche domanda, tipo:

quali sono i dati che interessano di più?
di quali categorie / ambiti?
quali sono i dati più consumati da applicazioni? (download > visualizzazioni)

Se però vogliamo mettere insieme le statistiche di vari portali di enti dello stesso tipo (regioni, comuni, città metropolitane, etc) forse prima dovremmo creare degli standard sul naming, altrimenti i confronti sono impossibili.

La strada è lunga e in salita, ma andrebbe percorsa.

⚖️Cambia la frequenza di aggiornamento dei dati COVID e spariscono i dati sugli ospedali

DatiBeneComune ha chiesto al Governo di ripristinare l’aggiornamento giornaliero dei dati COVID-19. E noi siamo tra i firmatari e sostenitori della richiesta.

Dal 30 ottobre 2022 infatti la pubblicazione dei dati è passata da giornaliera a settimanale. Senza trovare traccia delle ragioni della scelta e con un aggiornamento dei dati che interamente è (quasi) sicuramente rimasto giornaliero. Su quali criteri procedurali, scientifici, normativi è basata questa decisione del governo?

Altri punti li trovi nella lettera inviata. Ma qui vogliamo sottolineare l'impatto più largo che sta avendo questa scelta, mettendo in evidenza dei dati e delle informazioni importantissime che dal 29 ottobre non sono più aggiornati: quelli su "Ricoverati e posti letto in area non critica e terapia intensiva".

Quella della pandemia è stata un'occasione unica (nel bene e nel male), e ha generato diverse novità. Tra queste la pubblicazione di un cruscotto - purtroppo solo pagine HTML - con i dati i posti letto ed i ricoverati in area non critica e terapia intensiva per Regione e Province Autonome.

Queste informazioni non sono legate a una determinata patologia. Sono informazioni essenziali, il minimo per il rispetto del diritto a essere informati. Ebbene dal 29 ottobre non c'è più uno spazio web pubblico ufficiale che documenti in modo continuo e con frequenza giornaliera "come stanno gli ospedali" in Italia. Sul portale OpenData del Ministero della Salute ci sono 7 dataset legati alla parola ospedali: sono del 2020 o precedenti e non fanno riferimento a queste informazioni.

Le norme e le linee guida sul riutilizzo dell’informazione del settore pubblico prevedono che le pubbliche amministrazioni mettano a disposizione i propri dati in formato aperto, con una licenza aperta che ne consenta il massimo riutilizzo, e secondo criteri di accuratezza, coerenza, completezza e attualità (o tempestività di aggiornamento).

Norme e linee guida che però non producono esiti: non si riesce nemmeno a sapere quello che succede negli ospedali (con delle eccezioni locali).

Chiederemo la ripubblicazione di questi dati.

AgeNaS: Ricoverati e posti letto in area non critica e terapia intensiva

🗓️La situazione nazionale degli open data sul management del rischio infettivo

Chi segue il nostro canale YouTube ha già incontrato due volte (la prima e la seconda) il progetto RISVO, un progetto di ricerca e condivisione che si pone l'obiettivo di aprire i dati sul rischio infettivo.

Si tratta di quei fenomeni che l'Organizzazione Mondiale della Sanità e ricercatori e ricercatrici chiamano global health issues e "pandemie silenti".

Tra gli obiettivi di quest’anno vi è la rendicontazione della situazione dei database regionali sul rischio infettivo e di quanto siano predisposti per l’apertura dei dati a vantaggio dei professionisti, ricercatori e del pubblico.

Il 9 dicembre 2022 alle 18:00 faremo il terzo incontro, stavolta con Adriana Cela (infermiera) e Claudia Rudellin (coordinatrice infermieristica), il tutto moderato ancora una volta dalla nostra Paola Masuzzo, esperta di open science.

📺Un decennio di Open Data: una vittoria a metà?

Dal 18 al 19 novembre 2022 si è svolto l'Internet Governance Forum Italia (IGF). IGF è "una piattaforma di dibattito globale sulle tematiche digitali, condotta sotto l’egida delle Nazioni Unite, che favorisce il confronto tra le parti attraverso dibattiti, scambi di best practices e iniziative inerenti a Internet Governance al fine di porle all’attenzione degli organismi governativi e non per indirizzarne il loro operato".

Quest'anno è stato ospitato dalla Camera di Commercio delle Marche, con un programma ricco.

Sabato 19 c'è stato un panel dedicato al tema dei dati aperti dal titolo "Un decennio di Open Data: una vittoria a metà?", con Francesca De Chiara (Formez PA), Stefano Quintarelli, Giovanni Paolo Sellitto (ANAC), Andrea D’Eramo (SAS), Annalisa Barla (Università di Genova) e il nostro Andrea Borruso, moderato da Riccardo Nanni (Fondazione Bruno Kessler).

È stata una bella tavola rotonda, grazie anche alla diversità dei relatori in termini di professione e conoscenza di dominio.

🧮Il dataset | È stato l'ottobre più caldo di sempre? Ecco i dati del progetto Copernicus per accertarlo

Guardando i tweet di Lorenzo Arcidiacono e Dominic Royé, ma soprattutto pensando al tema del riscaldamento globale, abbiamo pensato che potesse essere utile scrivere un paio note su una fonte dati preziosa, che consente a chiunque di approfondire e farsi un'idea.

La fonte è il Climate Data Store, del Copernicus Climate Change Service (C3S). Questo ha l'obiettivo di combinare le osservazioni del sistema climatico con le analisi scientifiche più recenti, e rendere disponibili informazioni autorevoli e di qualità garantita sugli stati passati, attuali e futuri del clima in Europa e nel mondo. Non male!

Sono presenti decine di dataset interessanti, ma proprio leggendo Lorenzo emerge che ce ne è un paio di particolare interesse:

I dati sono accessibili via API (qui uno dei tanti tutorial per farlo), ma anche tramite un wizard di dowload in cui definire i parametri di interesse e scaricare i dati. Bisogna in entrambi i casi crearsi un account (gratuito).

Il formato di download di default è il GRIB, che non è un formato "comune", ma sono documentate le tante modalità per leggerlo e eventualmente convertirlo.

Occhio, sono matrici di dati "grandi", quindi se vuoi provare ti consigliamo di scegliere pochi parametri, in un'area piccola, in un intervallo di tempo ristretto. Non appena riesci a "partire", sperimenta liberamente.

Gli open data sui fondi del PNRR dedicati alla digitalizzazione della Pubblica Amministrazione

La trasparenza dei dati pubblici è un presupposto fondamentale per migliorare in maniera continua le politiche nazionali e permettere a tutti di esercitare una cittadinanza piena e consapevole.

E non possiamo essere che d'accordo con il Dipartimento per la trasformazione digitale che ha pubblicato i dati aperti di PA digitale 2026, ler informazioni disponibili sui fondi del PNRR dedicati alla digitalizzazione della Pubblica Amministrazione, gestiti dal Dipartimento per la trasformazione digitale della Presidenza del Consiglio dei Ministri.

Sono ad oggi una piccola perla, perché sono ancora pochissimi i dati aperti sul PNRR.

Sono disponibili in questo repository GitHub, descritti in questo file e corredati dai Codici Unico di Progetto (che in prospettiva daranno interoperabilità). E fa piacere notare come siano descritti anche in modalità frictionless in questo file. E anche questa è un po' una rarità, perché quasi mai i dati aperti in Italia sono corredati da una loro descrizione, e ancora meno da una descrizione che sia anche leggibile e interpretabile da un Personal Computer.

Con i dati aperti ben descritti è cosa più semplice derivare delle visualizzazioni di sintesi. Ci fa piacere segnalare quelle di due persone:

quelle del nostro Guenter Richter (primo e secondo URL);
quella di Gian Battista Vitrano

🎧 Dati alla mano: il podcast dell'Istituto Nazionale di Statistica

Il 20 ottobre 2022 l'Istat ha lanciato il podcast "Dati alla mano".

La prima e (al momento) unica puntata si intitola "Misurare l'invisibile": è dedicata a qualcosa che c'è ma non si vede, ma che vale (nel 2019) più di 200 miliardi di euro, circa il 11% del Prodotto Interno Lordo (PIL) in Italia, ovvero l'economia non osservata.

Il termine internazionale è NOE (ovvero non-observed economy) e ha due componenti principali: quella "illegale" (stupefacenti, prostituzione, contrabbando sigarette, ecc.) e quella "sommersa" (falsi costi di imprese e professionisti, lavoro nero, affitti non dichiarati, ecc.).

La seconda rientra nella stima del PIL dagli anni 90', quella "illegale" dal 2011. In questa puntata Federico Sallusti (di Istat) ci racconta di questa misurazione dell'invisibile.

🎧L'URL per iscriversi con qualsiasi lettore podcast è https://www.spreaker.com/show/5690933/episodes/feed

Data Liberation Project

Il Data Liberation Project è un'iniziativa volta, nelle parole di Jeremy Singer-Vine, ideatore del progetto e già data editor a BuzzFeed News, volta a "identificare, ricevere, riformattare, pulire, documentare, pubblicare e diffondere datset governativi di interesse pubblico".

Il progetto vuole "liberare" quei dataset inaccessibili alle persone e alle comunità che ne hanno più bisogno, sia perchè non sono mai stati resi pubblici, oppure perché pubblicati in formati oscuri o senza la documentazione necessaria per interpretarli correttamente. Nel sito del progetto è possibile consultare la lista di richieste FOIA attualmente in corso, per adesso limitata alle pubbliche amministrazioni statunitensi, ma l'adesione al progetto è libera per chiunque abbia voglia di contribuire.

Il fatto che sia coinvolto Jeremy Singer-Vine, è quasi la firma di un progetta che merita interesse.

"The State of Open Data 2022"...

È stata rilasciata l'edizione 2022 del rapporto "The State of Open Data", una survey di oltre 5400 intervistati giunta ormai alla settima edizione, qualificandosi come la più lunga indagine quantitativa sull'atteggiamento e la propensione dei ricercatori universitari nei confronti dei dati accademici aperti.

Il rapporto indaga su scala globale le motivazioni riguardanti la decisione di rilasciare in formato aperto i dati della propria attività accademica, con esempi e casi da tutto il mondo.

...and "The State of Data Journalism 2022"

Da una survey all'altra: fino al 31 dicembre c'è la possibilità di partecipare al sondaggio "The State of Data Journalism", che si pone l'obiettivo di capire come sta evolvendo la professione del data journalist a livello mondiale, indagando contesti lavorativi e tool e tecnologie utilizzate.

Il sondaggio è aperto a tutti coloro che partecipano al settore del data journalism, siano essi giornalisti che lavorano presso testate giornalistiche nazionali, ricercatori universitari, liberi professionisti, giornalisti locali.

Il completamento del sondaggio richiede circa 15 minuti, ed è disponibile anche in lingua italiana.

🗺️Una mappa per esplorare le città (alcune) dei "15 minuti"

La "città dei 15 minuti" è quella in cui ogni persona ha a meno di 15 minuti a piedi tutto ciò di cui necessita per vivere, lavorare e divertirsi. È un'idea del 2016 del professor Carlos Moreno:

È la città del ¼ dell’ora, dell’iper prossimità, dell’«accessibile» a tutti e in qualsiasi momento… Quella in cui, in meno di 15 minuti, un abitante può soddisfare i suoi bisogni essenziali di vita.

Leonardo Nicoletti , in collaborazione con Mikhail Sirenko e Trivik Verma ha sviluppato CityAccessMap, a partire dai dati aperti di OpenStreetMap e Global Human Settlement Layer (GHSL), per fornire alle pubbliche amministrazioni, alle autorità metropolitane, ai comuni, alle ONG, alle organizzazioni private e ai residenti, gli strumenti necessari per capire quante persone riescono a vivere a 15 minuti dalle loro esigenze.

È un'app open source (qui il codice) e copre (quasi) qualsiasi area urbana con più di 100.000 residenti.

💡Se qualcuno ti desse un file CSV con 100.000 righe ... (Twitter forse sta morendo, evviva twitter)

In queste settimane Twitter sta facendo molto rumore, in negativo. Molti utenti hanno lasciato la piattaforma e/o la frequentano molto meno.

È però uno spazio dove era (e sarà?) frequente poter leggere degli scambi come quello che ispira questa sezione. Il geniale Simon Willison (il creatore di datasette) chiede alle persone di scrivere qual è lo strumento che usano per esplorare e comprendere un file CSV di 100.000 righe.

Un file di questo tipo non è da considerarsi un file grande, ma è un primo gradino dimensionale "spannometrico", per il quale è molto meglio avere uno strumento "giusto", specie per fare delle prime analisi rapide (separatori, intestazioni, encoding, numero di campi, tipi di colonne, quantità di valori nulli, minimi, massimi, mode, medie, numero di valori distinti, ecc.)

Simon ha ricevuto decine di risposte che ti consigliamo di sfogliare: alcune sono delle piccole perle, con suggerimenti di strumenti molto efficaci, che magari non usi e/o non conosci, che potrebbero però cambiare in meglio alcune delle tue procedure di accesso a questo tipo di dati.

Simon Willison @simonw

If someone gives you a CSV file with 100,000 rows in it, what tools do you use to start exploring and understanding that data?

📖Un libro: "Aggiustare il mondo. La vita, il processo e l’eredità dell’hacker Aaron Swartz"

La Milano University Press ha come finalità la pubblicazione e valorizzazione di studi e ricerche prodotti da docenti e ricercatori dell'Università di Milano.

Giorno 8 novembre 2022 ha pubblicato "Aggiustare il mondo", di Giovanni Ziccardi, professore di Filosofia del Diritto alla Statale di Milano.

Il libro è dedicato a Aaron Swartz, uno scrittore, programmatore e attivista, che sognava di cambiare il mondo attraverso internet. A 13 anni creava un sito internet che anticipava Wikipedia, e contribuiva a scrivere le specifiche dell'RSS, una delle modalità più importanti di distribuire contenuti sul web. Un prodigio che credeva in una rete aperta e libera. Tim Berners Lee sottolineava come non si limitasse a scrivere codice, ma a fare appassionare gli altri alla risoluzione di problemi che aveva fra le mani, era un "connettore". Cofonda Reddit, contribuisce allo sviluppo di Internet Archive, lancia Open Library, si occupa delle licenze Creative Commons, si batte per l'accesso gratuito alla letteratura scientifica, e pubblica il mitico Guerrilla Open Access Manifesto:

Dobbiamo acquisire le informazioni, ovunque siano archiviate, farne copie e condividerle con il mondo. Dobbiamo prendere ciò che è fuori dal diritto d’autore e caricarlo su Internet Archive. Dobbiamo acquistare banche dati segrete e metterle sul web. Dobbiamo scaricare riviste scientifiche e caricarle sulle reti di condivisione. Dobbiamo lottare per la Guerrilla Open Access.

Se conosci Aaron Swartz sai già molte di queste cose, ma avrai sempre i brividi nel constatare ancora una volta la bellezza di questa persona, la grande qualità e attualità delle sue idee, nel dire "accidenti, anche in questa cosa che uso ogni giorno c'è lo zampino di Aaron".

Se non lo conosci questo libro è una bella occasione per conoscerlo, innamoraserne e magari provere a contribuire a qualcuna delle sue idee/battaglie. Perché molte hanno ancora bisogno di sostegno e di "camminare".

Il libro del Prof. Ziccardi è disponibile qui, pubblicato in Open Access con la licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0, disponibile in formato EPUB e PDF. E lo puoi comprare qui in versione cartacea.

Ci piace sottolineare come il volume sia dedicato a Salvatore Iaconesi.

Strumenti/risorse

🔧 pdfplumber, un pacchetto Python per l'estrazione di dati da un file
📰 PNRR: al via la Piattaforma Digitale Nazionale Dati, 110 milioni per favorire l’adesione dei Comuni
🏅"Beautiful Numbers – Crea la tua infografica", Talent Istat per infografiche a contenuto statistico (Dal 20 ottobre al 1 aprile 2023)
🔧Su Observable è stato inserito un client ufficiale per duckdb, e diventa semplice analizzare file anche grandicelli sul browser;
✒️se vuoi applicare al mitico csv,conf,v7
🔧la nuova versione della JSON-stat Javascript Utilities Suite.

Per sostenerci

Se vuoi sostenerci, questo il link per farlo. E invita per favore i tuoi contatti a iscriversi alla nostra newsletter.

🙏Ti ringraziamo e ti diamo appuntamento tra un mese.

Associazione onData newsletter

Discussione su questo Post