📣 Associazione onData - Newsletter #31
Una riflessione sui dati aperti della PA, l'articolo 18 bis del CAD, la “bussola” dei dati di genere, i dati aperti sui beneficiari del cinque per mille e tanto altro
Ciao,
grazie per essere qui a leggere questa newsletter, per avere invitato altre/i a iscriversi, per darci spesso spunti per i contenuti che pubblichiamo.
🙏Se vuoi sostenerci, puoi farlo in questi modi.
👉 Se ci leggi da e-mail, fai click qui per leggerla per intero
🤔 Una riflessione su dati aperti e accessibilità dell'informazione
☝️ AGGIORNAMENTO: sul PUN è adesso possibile scaricare la tabella dei dati, ma è inutilizzabile, in quanto il file CSV contiene migliaia di errori (errato uso del separatore dei campi).
Vogliamo fare - e proporti - una riflessione su dati aperti e accessibilità dell'informazione, e su come il nostro paese debba ancora purtroppo fare molti passi perché questi concetti vengano implementati in modo corretto e come impostazione predefinita.
Di recente il Ministero dell'Ambiente e della Sicurezza Energetica ha pubblicato la sua Piattaforma Unica Nazionale dei punti di ricarica per auto elettriche (PUN). Ci sono una mappa dinamica e una lista, entrambe filtrabili per località.
La piattaforma è certamente utile e risponde al bisogno dei proprietari di auto elettriche di sapere dove ricaricare, ma ha il grave difetto di non fornire direttamente i dati grezzi in formato aperto, cosa che come sa chi legge questa newsletter è un tema a noi molto caro, perché crediamo fortemente che la partecipazione attiva e la comprensione dei fenomeni che ci riguardano passino per la possibilità di interagire con l'informazione e di costruirci sopra nuovi strumenti.
Fornire i dati online in formato leggibile meccanicamente aprirebbe alla possibilità, per chiunque, di usarli come base per altro software, di farne analisi e creare nuova informazione. Questi sono dati pubblici, dello Stato, cioè di tutti noi, e chissà, magari qualcuno potrebbe voler fare confronti tra regioni, creare nuove visualizzazioni e grafiche, usare i dati all'interno di progetti più ampi.
Il nostro Andrea Borruso ha aperto questi dati - sono qui sul GitHub di OnData. Con un po' di abilità tecnica che passa per la API che alimenta la piattaforma li ha raccolti in formato CSV e anche "ripuliti" di problemi relativi per esempio ai caratteri usati - qui potete vedere il risultato, che si auto-aggiorna giornalmente: chiunque può facilmente scaricarli o leggerli con codice.
Questo lavoro è stato poi usato dal nostro Günter Richter per creare quest'altra mappa interattiva - ricca di filtri - ed è un bell'esempio di quello che dicevamo prima: costruire software su dati aperti, elabolarli, usarli per scopi più ampi. Un altro esempio di riuso è il lavoro che ha fatto OpenDataSicilia. Abbiamo anche ricevuto una menzione da Isaia Invernizzi su Il Post sull'apertura di questi dati, che ha a sua volta creato una mappa. E, a qualche giorno di distanza, Riccardo Saporiti su Wired ha pubblicato un pezzo con un altro paio di grafiche sempre costruite sui “nostri” dati aperti! Questo a dimostrazione che quando si rilasciano open data veramente, le possibilità sono tantissime e l'informazione corre.
Di nuovo, sarebbe opportuno e doveroso che i dati aperti fossero disponibili presso la fonte primaria, che è ciò per cui qui a OnData ci spendiamo e vogliamo condividere con chi ci segue.
Nel Decreto Legislativo 24 gennaio 2006, n. 36, l'articolo 6 stabilisce che le pubbliche amministrazioni, gli organismi di diritto pubblico e le imprese pubbliche devono mettere a disposizione i propri dati in formati leggibili meccanicamente (definiti nell'articolo 2, lettera c-bis) e aperti (definiti nell'articolo 2, lettera c-ter).
Come in molti altri casi, abbiamo segnalato questa mancanza al Difensore Civico per il Digitale.
🧮 L’importanza dell’articolo 18 bis del Codice dell'Amministrazione Digitale (CAD)
Sul numero #4 di
- un'iniziativa della campagna #DatiBeneComune per individuare, ottenere, riformattare, pulire, documentare, pubblicare e diffondere dati di interesse pubblico - abbiamo pubblicato l'elenco complessivo dei beneficiari del cinque per mille (5x1000) 2022.La fonte dei dati è questa pagina del sito dell’Agenzia delle Entrate, ma sono informazioni pressoché inutilizzabili, perché “intrappolate” in migliaia di pagine in file PDF. E allora li abbiamo estratti e resi disponibili anche in formato CSV.
Ti suggeriamo di leggere l’editoriale di Info cooperazione, sul valore di questi dati.
Abbiamo segnalato la cosa a dicembre del 2023 al “Difensore civico per il digitale”, che l’11 marzo ci ha comunicato “è stata valutata non manifestamente infondata”.
È il modo formale per dire che è stata accolta e girata all’Ufficio Affari Legali e al Direttore Generale di AgID per l'esercizio dei poteri di cui all'art. 18 bis del Codice dell'Amministrazione Digitale (CAD).
L'articolo 18 bis è fondamentale per le persone perché stabilisce i poteri sanzionatori dell'Agenzia per l'Italia Digitale (AgID). Questa norma permette all'AgID di adottare provvedimenti in caso di violazioni delle disposizioni del CAD riguardanti la digitalizzazione e l'innovazione nella pubblica amministrazione.
La presenza di un meccanismo di sanzione è pensato per garantire che le normative sul digitale siano rispettate dalle amministrazioni pubbliche, assicurando così che i diritti digitali — come l'accesso a servizi pubblici online, la protezione dei dati personali e l'uso efficace delle tecnologie digitali — siano effettivamente tutelati.
Se un'entità governativa non rispetta le regole stabilite per la digitalizzazione e l'innovazione, l'articolo 18 bis fornisce le basi per intervenire, contribuendo a mantenere un livello adeguato di servizio e responsabilità nell'erogazione dei servizi digitali.
🪛 Le API del portale nazionale dei dati aperti mettono l’acceleratore
Le API sono gli strumenti che consentono alle applicazioni software di scambiare informazioni tra loro.
Il portale nazionale dei dati aperti ha le sue API e consente, a chi lo fa tramite software e/o tramite linguaggi di programmazione, un accesso comodo alla sua banca dati, .
Noi ad esempio avevamo attivato tanto tempo fa il monitoraggio automatico della parola chiave “PNRR” per essere avvisati tutte le volte che viene pubblicato un nuovo dataset correlato. L’avevamo spento, perché anche limitando la risposta a poche decine di righe, si otteneva il risultato in più di un minuto. Troppo lento e non volevamo essere causa di ulteriori “lentezze”.
👏 Da alcune settimane abbiamo riscontrato che la stessa operazione restituisce un risultato in meno di 2 secondi. La cosa ci piace e abbiamo riattivato il monitoraggio.
Per i tecnici: la query CKAN (il motore del portale) è una package_search
(documentazione), e in particolare package_search?q=PNRR&rows=100
(esempio).
🗺️ Confini amministrativi italiani
Nel numero speciale della nostra newsletter, pubblicato da poco, ti abbiamo presentato Confini amministrativi italiani, un'applicazione, per usare comodamente i dati geografici dei confini amministrativi italiani nel tuo prossimo progetto.
Ne abbiamo già scritto, quindi non ci ripetiamo e per approfondire ti lasciamo alla lettura di questa pagina.
Ancora grazie al nostro Alessio Cimarelli, per averla pensata e realizzata.
👥 La “bussola” dei dati di genere
Il Gender Data Compass (GDG) è una risorsa online creata dal Global Data Center dell'Open Data Watch, che fornisce informazioni e strumenti per l'utilizzo e la comprensione dei dati di genere.
Nonostante la sua importanza, la nostra comprensione di questi dati rimane spesso inadeguata. Persistono lacune nei dati, poiché la raccolta tradizionale spesso trascura o sottostima le disparità di genere. Inoltre, mancano informazioni sulle fondamenta di un sistema di dati di genere: quali dati vengono raccolti, come vengono interpretati e chi vi ha accesso.
L’ultimo report mostra una carenza diffusa di dati di genere completi e aperti, con un impatto negativo sulla capacità di monitorare l'uguaglianza di genere. Le categorie analizzate includono dati sulla salute, la povertà, la connettività digitale e altro ancora, rivelando lacune significative nella disponibilità e disaggregazione dei dati.
Viene ad esempio anche verificato se un Paese ha politiche e leggi che incoraggiano la produzione e la diffusione di dati ufficiali di genere, se il quadro normativo, il panorama dei finanziamenti sono sufficientemente forti da sostenere un cambiamento trasformativo.
🎙️ Un certo genere di violenza
L'Istat produce un podcast di nome "Dati alla mano", che esce a cadenza variabile e si trova qui.
Ogni episodio è interessante e la cosa notevole è che anche le trascrizioni sono pubblicate liberamente in PDF, per chi preferisce leggere - i temi sono naturalmente legati a dati e statistiche su società ed economia, ma l'approccio è non solo informativo ma anche "leggero" e rivolto a tutte le persone. Si possono anche mandare proposte per nuovi argomenti!
Qui segnaliamo in particolare l'episodio "un certo genere di violenza", (qui in trascrizione), che delinea i concetti di femminicidio e di violenza di genere in senso ampio, li inquadra in termini rigorosi e ci spiega come li si quantifica, nel mondo e in Italia.
Veramente un'iniziativa lodevole che speriamo possa avere ampia diffusione.
🪴 Aggiornate le belle slide didattiche a tema open data
Nel numero #27 della nostra newsletter ti abbiamo presentato il PCTO (Percorso per le competenze trasversali e per l’orientamento) "Open Data", un lavoro di Liguria Digitale, grazie al tramite di Scuola Digitale Liguria, in collaborazione con Accademia Digitale Liguria ITS-ICT.
Ne sono state tenute due nuove edizioni - per l’istituto Majorana-Giorgi e l’istituto Italo Calvino, di Genova, con alcuni interessanti aggiornamenti: l’introduzione del tema Linked Open Data, l’utilizzo del tool IMAGE di Eurostat (scoperto dai curatori del corso grazie alla nostra guida) e l’aggiornamento alla versione 3.0 del nostro amato VisiData.
➡️ Trovate il link alle splendide slide, nelle pagine ufficiali dei due PCTO: Majorana-Giorgi e Italo Calvino.
Rinnoviamo il grazie alle curatrici e ai curatori dei PCTO, perché è una soddisfazione grande avere fornito qualche spunto e qualche materiale didattico per lo sviluppo dei corsi.
🔍 Equità di Genere nell'Utilizzo dei Fondi PNRR
PERIOD Think Tank ha fatto una nuova analisi territoriale e per missione, per valutare l’impatto degli appalti PNRR sull’occupazione di donne e giovani. Il 65% dei bandi è andato in deroga rispetto ai meccanismi di tutela per favorire l’inclusione di donne, giovani e persone con disabilità, mentre solo il 6% presenta misure premiali di genere.
Noi abbiamo avuto l’opportunità e il piacere di dare una mano a Giuditta Bellosi, Dylan Tartarini e Alessandra Pomella - che hanno sviluppato la nuova interfaccia di esplorazione dei dati - per la corretta lettura e utilizzo delle principali banche dati di riferimento usate per la nuova analisi.
Tra queste quelle di ANAC (Autorità Nazionale Anticorruzione) e OpenCUP: ringraziamo entrambe le organizzazioni per i riscontri ottenuti durante lo sviluppo del lavoro.
Qui il comunicato stampa e la dashboard di PERIOD Think Tank.
🗓️ L’open data day 2024
Nella prima settimana di Marzo la Open Knowledge Foundation (fondazione dedicata alla condivisione libera di informazione, tra cui i dati aperti) ha organizzato l’Open Data Day 2024, una serie di eventi da tutto il mondo, online o in presenza fisica, volti a celebrare e condividere conoscenza e discutere di trasparenza dell'informazione.
In Italia si sono svolti 7 eventi, come si vede dalla mappa sul sito web. Per chi usa Mastodon, hanno un bel profilo, ma anche un canale YouTube.
OpenCoesione ha pubblicato un video tutorial sui suoi dati aperti in questa occasione.
➡️ Uno dei modi migliori per esplorare questa edizione, sono gli articoli del blog dedicati all’Open Data Day.
🧮 Common Corpus: il più grande set di dati di dominio pubblico per l'addestramento dei LLM
Common Corpus è un'iniziativa internazionale coordinata da Pleias, che coinvolge ricercatori in LLM (Large Language Model), etica dell'Intelligenza Artificiale e patrimonio culturale, in associazione con le principali organizzazioni impegnate in un approccio scientifico aperto per l'intelligenza artificiale.
È un’iniziativa che mira a dimostrare che è possibile addestrare gli LLM - semplificando un po’ le intelligenze artificiali - su un corpus completamente aperto e riproducibile, senza utilizzare contenuti protetti da copyright:
comprende 500 miliardi di parole provenienti da un'ampia varietà di iniziative;
è multilingue e ad oggi è il più grande corpus in inglese, francese, olandese, spagnolo, tedesco e italiano;
dimostra appunto che è possibile addestrare LLM completamente aperti su fonti senza problemi di copyright.
🫶 Piccole soddisfazioni
Per segnalare fatti, cose e persone, che ci hanno restituito piccole soddisfazioni
➡️ Isaia Invernizzi, a cui viene chiesto ne LaCulturaDelDato di indicare un “progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno”. E lui (grazie mille):
Negli ultimi anni l’associazione Ondata ha liberato una quantità incredibile di dati essenziali. Dati delle elezioni, dati sui vaccini, dati sulla scuola, sull’ambiente, perfino i dati degli alberi monumentali italiani. È stato un lavoro utile ai giornalisti, ai ricercatori, in generale alle persone. Il loro esempio mi ha spronato a diffondere i dati trovati nelle mie ricerche e a condividere esperienze e metodo di lavoro.
➡️ I dati sulla frequentazione dell'ora di religione pubblicati nel numero #2 di Liberimoli tutti! sono stati la fonte di un servizio a tema, del TG Regionale dell’Umbria, che ha citato le fonti in modo dettagliato e corretto.
➡️ Riccardo Saporiti, che proprio a proposito dei dati della Piattaforma Unica Nazionale dei punti di ricarica per auto elettriche (PUN), che abbiamo liberato, dice:
Vi voglio così bene che ogni anno vi do il 5xmille. Sono due lire, ma si fa quel che si può
Strumenti/risorse
🪛 Trelliscope, un progetto open source per costruire e condividere raccolte interattive di visualizzazioni dati, anche a “faccette”;
🗓️ il 29 maggio arriva csv,conf,v8, “una conferenza comunitaria per i creatori di dati di tutto il mondo”;
🧮 I numeri della PDND (la piattaforma che abilita lo scambio di informazioni tra gli enti) e i dati aperti correlati;
📰 “Come gli standard di accessibilità possono favorire una migliore progettazione visiva dei grafici”, Kent Eisenhuth su Smashing Magazine;
🗺️ Copernicus Interactive Climate Atlas, per esplorare, analizzare e visualizzare le informazioni sui cambiamenti climatici passati e futuri;
🎓 Istat promuove l’alfabetizzazione statistica e l’uso dei dati di statistica ufficiale tramite un percorso di formazione con tre webinar e materiali su MOOC;
🧮 Climate Pulse, aggiornamenti in tempo quasi reale delle principali variabili climatiche globali da parte del Servizio Cambiamenti Climatici di Copernicus;
📊 Data Insights, la sezione “concisa” di “Our World in Data” per evidenziare un dettaglio importante su come sta cambiando il mondo;
📺 “Uscire dalla nostra bolla con dati e statistiche”, un bel video divulgativo dell'Ufficio federale di statistica della Svizzera, per promuovere il progetto "Unlocking the Power of Data Initiative" (la playlist dedicata);
🎓 "First Python Notebook”, una guida passo passo all'analisi dei dati con Python e Jupyter notebook ;
🎓 “Teaching Accessible Computing”, un libro online gratuito che aiuta gli insegnanti di informatica a integrare i temi dell'accessibilità nelle loro lezioni;
📺 “Come ricercare gli OpenData”, un breve video-tutorial sui dati aperti di OpenCoesione, a cura di OpenCoesione;
🏢 Tutti gli speech di Unwrapped, la conferenza online di Datawrapper che si è tenuta a marzo 2024;
📺 Le brevi presentazioni di DuckCon #4, una conferenza dedicata a DuckDB;
🪛 Su Datawrapper è stato abilitato l’editing collaborativo in tempo reale;
📊 Nuovo portale dell'ONS (l'equivalente di Istat in UK), per esplorare le statistiche “locali”;
🗺️ WebGIS Infratel, un nuovo portale web GIS per consultare i dati dell'infrastruttura pubblica FTTH/FWA realizzata nell'ambito del piano BUL (Banda ultra larga)