

Discover more from Associazione onData newsletter
Associazione onData - Newsletter #17
Ciao,
grazie per essere qui a leggere questa newsletter, per avere invitato altre/i a iscriversi, per darci spesso spunti per i contenuti che pubblichiamo.
🙏Se vuoi sostenerci, puoi farlo con una donazione.
➡️ Per visualizzare questa newsletter per intero, apri questo link.
🗳️Dati elettorali, aperti, subito
Circa una settimana prima delle elezioni politiche del 25 settembre 2022 #datiBeneComune ha scritto al "Dipartimento per gli Affari Interni e Territoriali", alla "Direzione Centrale per i Servizi Elettorali del Ministero degli Interni" e in copia all'"Agenzia per l'Italia digitale", per chiedere che i dati elettorali fossero pubblicati subito in formato aperto, leggibile meccanicamente e ben descritti/interoperabili.
Lo abbiamo chiesto, perché nelle tornate precedenti i dati elettorali sono stati pubblicati nella sezione Open Data ufficiale dedicata diverso tempo dopo la chiusura dei seggi.
È un ufficio da cui ci aspettavamo una risposta cordiale, pronta e nel merito. E così è stato:
Nel ringraziarvi per l'apprezzamento dei nostri servizi e per gli utili suggerimenti, confermiamo il nostro impegno nella pubblicazione di dati elettorali nel più breve tempo possibile. Anche in occasione delle prossime elezioni politiche, pertanto, saranno disponibili su Eligendo, nei giorni immediatamente successivi alla chiusura dell'evento, tutti i risultati in formato aperto, non senza averne verificato correttezza, qualità e congruenza, requisiti imprescindibili data l'importanza dell'oggetto a cui si riferiscono.
E nei fatti, per la prima volta, da quando esiste la sezione "Reportistica" correlata a una tornata elettorale, è stata integrata una sezione "Open data". Disponibile qualche giorno dopo la domenica del voto.
Senza alcuna retorica, apprezziamo molto la cosa.
Alcune note (che invieremo anche al Ministero):
nei file sono indicati i nomi dei Comuni, ma non è indicato il codice Istat o il codice "elettorale". Per rendere questi dati utilizzabili, è essenziale abilitare una pronta interoperabilità (abbiamo aggiunti qui i codici Istat);
i file sembrano pubblicati con la codifica dei caratteri ISO8859-1. Per formati come il CSV, è essenziale aggiungere una nota sull'encoding, altrimenti si possono avere barriere di utilizzo e fare anche errori;
nei file sugli scrutini non sono ancora (al 9 ottobre 2022) presenti i dati su tutti i Comuni di Italia. È necessario pubblicare insieme ai dati, una nota relativa sulle ragioni e sui tempi stimati di completamento;
nel file sull'affluenza alle urne, non c'è traccia dei numeri di "femmine" e "maschi" votanti. È un'informazione sicuramente disponibile al ministero, la cui presenza consentirebbe di fare analisi interessanti e che soprattutto farebbe cultura.
E a proposito di cultura, un ultimo punto fuori elenco, che ci sembra importantissimo. Il Ministero rende disponibili i "Servizi Elettorali per le Agenzie di Stampa", ovvero delle modalità pensate per l'accesso diretto e automatizzabile da un computer/software alla banca dati elettorale ufficiale. Dati aggiornati e di continuo, ma soltanto per la "Stampa" accreditata. Limitare l'accesso a questi dati e in queste modalità soltanto alla "stampa", è inadeguato ai tempi. Persone di tutte le età, con conoscenze di dominio differenti e le professionalità più varie, sarebbero molto interessate a questo tipo di accesso e ne produrrebbero esiti di qualità e probabilmente inaspettati. L'accesso a questi servizi dovrebbe essere reso pubblico (eventualmente strutturato in modalità informatiche che non ne causino il blocco).
Nelle settimane a cavallo della tornata elettorale, abbiamo lavorato per rendere più disponibili e usabili dati e informazioni su programmi, liste e risultati. Alcune note in merito:
abbiamo pubblicato qui un elenco di chi ha usato questo nostro lavoro;
abbiamo aggiunto ai dati aperti sugli scrutini di Camera e Senato pubblicati su Eligendo, i codici Istat dei Comuni;
🙏grazie mille a chi in queste settimane, su questi dati ci ha fatto richieste, proposte, correzioni.
🧮I dati sui testamenti biologici depositati nei Comuni
L'Associazione Luca Coscioni ha promosso un accesso generalizzato su circa 4400 Comuni italiani per verificare quanti testamenti biologici (DAT) sono stati depositati presso gli uffici di stato civile dei comuni e quanti di questi sono stati trasmessi alla Banca Dati Nazionale come previsto dalla normativa vigente.
L'associazione ci ha poi chiesto di predisporre questi dati per la pubblicazione come dati aperti, in modo tale che potessero essere liberamente scaricabili e utilizzabili da chiunque.
Abbiamo quindi lavorato sui dati che ci sono stati forniti. Li abbiamo ripuliti e li abbiamo descritti. E ora sono dati pubblici, sono un bene comune:
qui l'articolo per approfondire;
qui i dati.
Abbiamo apprezzato molto l’approccio dell'Associazione Luca Coscioni: nel momento in cui ha dei dati di interesse pubblico, fa in modo di renderli pubblici a tutte/i. Complimenti!
🧮I dati di ANCI e CONAI sulla raccolta differenziata, non sono pubblicati in modo adeguato
I dati di ANCI e CONAI sulla raccolta differenziata, non sono pubblicati in modo adeguato.
La notizia è stata data con un buon risalto: "Rifiuti e raccolta differenziata: via al portale open data ANCI-CONAI"
Sono le notizie sulle quali ci tuffiamo con gioia, per poi spesso restare delusi.
Il portale è fatto per una consultazione facile da parte dei cittadini, o forse meglio degli esperti del settore, ma di Open Data c’è poco.
Alcuni problemi:
manca l'indicazione della Licenza, anzi c’è un Copyright a piè di pagina;
i dati, in formato CSV sono disponibili solo dopo aver fatto una selezione e pertanto per scaricarli tutti sono necessarie decine di click;
uno degli attributi importanti è il Codice Europeo del Rifiuto, il Codice CER - ovvero un codice che identifica la tipologia del rifiuto - non è associato a metadati.
Quest'ultimo è un punto chiave e semplice: se si vuole dare ad esempio la possibilità alle persone di fare un'analisi sui "rifiuti alimentari di natura organica" (codice CER 200123), nella pagina di download dei dati deve essere presente un link a una pagina "ufficiale" che pubblica i codici CER in formato leggibile meccanicamente.
Fra l'altro trovare quest'elenco - aldilà del portale di ANCI-CONAI - è impresa ardua e la cosa meriterebbe un momento di riflessione e approfondimento (dopo alcuni minuti di ricerca ci siamo arresi al file PDF, presente nella pagina della norma di riferimento).
Armati di santa pazienza segnaleremo i problemi e chiederemo un adeguamento. Ma a fine 2022, sembra paradossale che manchino questi elementi propedeutici alla definizione di dato aperto.
📺Il raduno di OpenDataSicilia 2022: una giornata ricca di idee e persone
Anche quest'anno abbiamo partecipato attivamente e sostenuto il raduno OpenDataSicilia, una comunità a cui siamo molto legate/i (diverse persone di onData, fra l'altro, ne fanno parte).
Vi riportiamo a seguire il video dell'intera prima giornata.
Nella descrizione del video (grazie Totò Fiandaca), l'indice ipertestuale di tutte le presentazioni, per saltare al momento di proprio interesse.
🏅Piccole soddisfazioni di advocacy
Alcuni mesi abbiamo segnalato all'ufficio del Difensore Civico per il Digitale di AgID (Agenzia per l'Italia digitale), come le note di copyright del sito dell'Istituto Superiore per la Protezione e la Ricerca Ambientale (ISPRA) fossero inadeguate:
I contenuti del sito – codice di script, grafica, testi, tabelle, immagini, suoni, e ogni altra informazione presente in qualunque forma – sono protetti ai sensi della normativa in tema di opere dell’ingegno.
La segnalazione ha avuto effetto e adesso si può leggere (prima era così):
Salvo ove diversamente indicato, i dati pubblicati sul presente sito sono messi a disposizione con licenza CC-BY 4.0
Un'altra segnalazione di impatto più lieve, perché probabilmente soltanto un errore, è il link alla licenza presente nel footer del sito del Ministero degli Interni. Abbiamo fatto notare, sempre allo stesso ufficio, come l'icona della licenza fosse una generica Creative Commons (vecchia versione della home), ma che puntasse a una licenza non aperta (una non commerciale).
Adesso punta a licenza aperta, la CC BY 3.0.
👏 Mettere a fattor comune anche gli errori: l'esempio da applausi di UniversiDATA
UniversiDATA è il portale dei dati aperti dell'università in Spagna. Soltanto per questo, ci sarebbero applausi da fare, perché il mondo delle università in Italia è ancora abbastanza poco visibile (con delle eccezioni) in questo contesto.
Qui però vogliamo segnalarvi un recente articolo pubblicato sul sito dal titolo (qui tradotto) "Corretto un errore nel dataset sui titoli di studio".
Nell'articolo è descritto un errore che era presente in uno dei dataset: le descrizioni di due valori erano stata scambiate tra loro. Ed è ancora più interessante come sia descritto il protocollo con cui gli errori sono gestiti:
identificare l'origine (era un errore in uno script);
fare un'analisi, per individuare quali altri dataset avrebbero potuto "subire" l'errore;
correggere la fonte dell'errore;
correggere i dati e ripubblicarli;
raccogliere e descrivere l'errore nella documentazione del dataset;
avvisare gli utenti attraverso i canali di pubblicazione (sito e feed RSS).
Nella grandissima parte dei casi, per i dati aperti pubblicati in Italia, si ha a disposizione soltanto un titolo, una descrizione, una categoria tematica e alcune informazione legate alle date. E ad esempio mai (in termini percentuali) la descrizione degli attributi.
Qui addirittura si rende noto un errore, si descrive la causa e come è stato gestito e si sottolinea come il tutto sia stato inserito in una documentazione pubblica.
E questa documentazione è un'altra cosa di gran valore, ma purtroppo molto rara. Per ogni dataset queste sezioni (non sempre tutte valorizzate):
dati generali (titolo, descrizione, frequenza di pubblicazione, data di aggiornamento, ecc.)
criteri su cui è basato;
la descrizione dello schema dati delle risorse da cui è composto;
se ha subito qualche processo di anonimizzazione e quale;
potenziale utilizzo del dataset e utenti correlati;
cadi d'uso noti del dataset;
e appunto la cronologia degli errori/correzioni.
Tutto in uno spazio in cui è possibile inserire commenti, in cui sono visibili tutte le versioni della documentazione nel tempo, in cui si informano in modo molto leggibile gli/le utenti.
Per tutte le persone che lavorano con dati aperti, ci sono tantissimi spunti, c'è tanto da imparare, da chiedere e da fare.
📖 Guida all'uso del Catalogo Nazionale Dati per l'interoperabilità semantica
Il Catalogo Nazionale Dati per l'interoperabilità semantica è il punto di riferimento in cui trovare ontologie, schemi dati e vocabolari controllati pronti per essere riutilizzati in applicazioni e soprattutto costituisce un elemento essenziale per consentire lo sviluppo di API interoperabili, semanticamente e sintatticamente come ricorda la stessa descrizione del progetto disponibile a questo indirizzo: https://schema.gov.it.
IL catalogo è accompagnato da una Guida all'uso, che benché destinata a “esperti di semantica, architetti e programmatori IT e a service designer di servizi digitali in ambito pubblico e privato” fornisce anche informazioni utili per chi è interessato a questo mondo e non ha avuto esperienze specifiche in passato. La guida, infatti, dedica un intero capitolo all'introduzione alla semantica e ai suoi concetti di base, con particolare riferimento allo sviluppo di API e servizi Web.
È un ottimo passo avanti per avvicinare quante più esperti del settore alle problematiche dell'interoperabilità e di come le tecnologie semantiche possano fornire un valido supporto nell'approcciare problemi specifici.
Va evidenziato che il documento è in bozza e in questa fase è possibile contribuire non solo segnalando eventuali inesattezze ma anche proponendo modifiche che possano migliorare la leggibilità e la comprensione di questi concetti ampliando notevolmente la platea di esperti interessati. La modalità per interagire e proporre eventuali cambiamenti è davvero molto semplice e molto comune per chi utilizza GitHub non solo per lavorare con il codice ma anche per editare documenti in maniera condivisa. Esiste, infatti, un repository GitHub relativo alla guida su cui tutti possono aprire delle issue per segnalare inesattezze, oppure è possibile utilizzare il meccanismo delle Pull Request per proporre delle integrazioni o modifiche. Va messo in evidenza che non è necessario essere esperti di semantica per contribuire, ma è davvero importante la partecipazione anche dei non esperti. Infatti, benché si siano compiuti notevoli sforzi per semplificare i concetti presentati, potrebbe essere molto utile segnalare parti ancora poco chiare o che necessitano di ulteriori dettagli per essere comprese appieno.
Cosa aspettiamo? È arrivato il momento di provare a rendere questi concetti davvero alla portata di tutte/i!!
📺Interesse collettivo e dati personali: il caso della statistica ufficiale
Nella vita quotidiana lasciamo, più o meno inconsciamente, tracce digitali della nostra vita, delle nostre abitudini, dei percorsi, dei consumi e così via. Nell'era dei Big Data e degli Open Data, quali sono gli strumenti per tutelare la riservatezza e nel contempo offrire informazioni sempre più precise e dettagliate?
Venerdì 23 settembre 2022, il nostro vicepresidente Vincenzo Patruno - insieme a Cecilia Colasanti, Roberto Samar, e Serenella Ravioli - ha animato un incontro a tema, nel contesto degli "Incontri con la scienza/Science Talks" di Trieste Next, il "festival della ricerca scientifica".
📺Legge 194, pandemia, PNRR: dati aperti che non lo erano
La pandemia ha messo l’opinione pubblica di fronte all’importanza dei dati. Un’esperienza di cui fare tesoro in un paese in cui dall’obiezione di coscienza al piano nazionale di ripresa e resilienza, ottenere dati aperti è un’impresa tutt’altro che semplice. Con buona pace della trasparenza.
Il 7 e 8 ottobre 2022 si è tenuto il Wired Next Fest 2022. Tra gli interventi uno a cui teniamo molto: quello di Davide Del Monte e Sonia Montegiove su alcuni dati che non sono (o non erano) un bene comune, sulle motivazioni della campagna #datiBeneComune, e sul come sia un luogo di incontro e di alimentazione di idee.
Qui, al tempo 1:05:08 di questo filmato (un grazie a Wired Italia).
🏫A Scuola di OpenCoesione: online il bando per l'edizione 2022-2023
A Scuola di OpenCoesione (ASOC) è un percorso didattico innovativo finalizzato a promuovere e sviluppare nelle scuole italiane principi di cittadinanza attiva e consapevole, attraverso attività di ricerca e monitoraggio civico dei finanziamenti pubblici europei e nazionali.
Il progetto permette di sviluppare competenze digitali, statistiche e di educazione civica, per aiutare gli studenti a conoscere e comunicare, con l’ausilio di tecniche giornalistiche, come le politiche pubbliche, e in particolare le politiche di coesione, intervengono nei luoghi dove vivono.
È stato pubblicato il bando del Ministero dell’Istruzione per partecipare all'edizione 2022-2023 di "A Scuola di OpenCoesione", rivolto a tutte le scuole secondarie di primo e secondo grado.
Per candidare una scuola, questa è la pagina dedicata.
Le domande devono essere inviate entro e non oltre le ore 18.00 di lunedì 24 ottobre 2022.
Consigliato!
🛰️ L'alluvione delle Marche: due "reazioni" correlate, con i dati al centro
Il 15 settembre 2022 un pesantissimo evento meteorologico ha colpito le Marche, con forti inondazioni improvvise con un massimo di 400 mm di pioggia in poche ore. È stato un evento terribile, con 11 morti accertati e la distruzione del territorio.
Tra le "reazioni" a questo evento, ce ne sono due che sono ormai una certezza in questi casi: quella del Copernicus Emergency Managment Service e quella di OpenStreetMap Italia.
La prima è uno dei tanti esiti del progetto Copernicus, creato nel 2001 per rendere l'Unione europea autonoma del monitoraggio ambientale, tramite le rilevazioni satellitari. È stata pubblicata una pagina dedicata all'alluvione, in continuo aggiornamento, per rendere disponibili a tutte/i dei dati geografici aperti per poter comprendere le dimensioni e l'impatto del fenomeno.
La seconda è quella attivata tramite il Tasking Manager di WikimediaItalia, un'applicazione online per mappare quelle aree per cui sono disponibili pochi dati geografici, con l'obiettivo di migliorare/aggiornare le informazioni su edifici, strade e altri elementi identificabili da remoto a supporto delle attività di soccorso e recupero. Quest'ultima ha usato i dati di riferimento della prima, per definire le aree su cui attivare l'azione.
WHO Data Design Language: progettare esperienze informative ricche, accessibili ed eque per i dati sulla salute pubblica
L'Organizzazione Mondiale della Sanità ha definito un linguaggio di data design, per per la presentazione/pubblicazione di dati dati sanitari.
L'obiettivo è quello di creare esperienze utente che siano ricche, informative, accessibili ed eque.
Progettato non come un insieme di regole, ma piuttosto come una cassetta degli attrezzi, questo "Data Design Language" include una libreria di grafici, linee guida di progettazione, specifiche di colore e stile tipografico con indicazioni sull'usabilità, l'internazionalizzazione e l'accessibilità.
Questi i principi guida:
Chiarezza, le presentazioni sono personalizzate in base alle esigenze informative delle/degli utenti, sono comprensibili e accessibili;
Trasparenza, deve essere chiara l'incertezza, la precisione, la provenienza e la copertura dei dati;
Apertura, si creano esperienze ricche per tutte/i, attraverso approcci accessibili, internazionali, adattabili e partecipativi alla visualizzazione dei dati;
Robustezza, i dati devono essere accessibili in varie modalità, in varie "dimensioni", attraverso soluzioni tecnologiche robuste e snelle.
È attualmente in fase di implementazione e se ne vedono già alcuni effetti nel portale dati dell'OMS, ma sarà reso evidente (probabilmente entro fine 2022) nel progetto Datadot.
📊 Come usare bene i tipi di carattere in grafici e tabelle
La bravissima Lisa Charlotte Muth ha scritto un gran bell'articolo sul sito di Datawrapper, sulle scelte da fare sul tipo di carattere (font), da usare in grafici e tabelle.
Un font "giusto", alle volte salva un grafico, evidenzia un valore importante, rende leggibile una grafica densa di informazioni, rende bella una tabella. Può fare distinguere la tua visualizzazione dei dati, dalle altre.
Lisa scrive all'inizio che alla domanda "quale font utilizzare?", c'è una risposta rapida: usarne uno di facile lettura. Ovvero senza grazie, né troppo stretto, né troppo largo, regolare, e in nero o quasi nero.
L'articolo di Lisa è molto più ricco, merita una lettura completa e va conservato nel catalogo delle letture di riferimento.
Strumenti/risorse
🔥 La bellissima e imperdibile conferenza csv,conf arriva alla sua settima edizione, e sarà a Buenos Aires (molto consigliata);
🗓️ Il 20 ottobre arriva l'EU Datathon 2022;
📖 Pubblicata una ricchissima guida su come fare analisi di dati geografici satellitari usando Google Earth Engine;
📖 un'altra guida bellissima, di qualche anno fa, su come il team di BBC che si occupa di dati crea i grafici con R;
🧮 È online la nuova edizione di Demografia in cifre, il sito Istat dedicato alla consultazione dei dati demografici;
📰 Dieci anni di wikidata, parte 1 e parte 2. Due articoli di Luca Martinelli da non perdere;
📺 Learning corner for data providers, una serie di webinar a cura dei gestori del portale europeo sui dati aperti, dedicata ai data providers. Il primo dei 5 è già stato realizzato ed è disponibile online;
📊 Nuova funzionalità per la visualizzazione dei dati nel portale open data nazionale;
🪛 sono state lanciate le API della Library of Congress (la biblioteca nazionale degli Stati Uniti d'America), una fonte di informazioni legislative per esplorare la storia legislativa di un disegno di legge;
📺 Il webinar che racconta lo sviluppo dell'Open Data Climate Action Challenge di Smart Dublin;
🧮 Open Terms Archive, l'archivio dei termini d'uso dei servizi digitali, per "spostare gli equilibri di potere contro le big tech";
📺 Solutions in Scarcity, il webinar di Open Data Watch, sul progetto per superare la cronica mancanza di investimenti sui dati di genere;
📖 L'impatto del software e dell'hardware open source sull'indipendenza tecnologica, sulla competitività e sull'innovazione nell'economia dell'UE;
🪛 Cosmograph, per visualizzare grafi molto grandi in pochi secondi;
🪛 Pandas Profiling, per descrivere in modo rapido e chiaro un dataframe;
Per sostenerci
Se vuoi sostenerci, questo il link per farlo. E invita per favore i tuoi contatti a iscriversi alla nostra newsletter.
🙏Ti ringraziamo e ti diamo appuntamento tra un mese.