📣 Associazione onData - Dati che parlano e dati che mentono
Due facce degli open data italiani
Ciao, grazie per essere qui a leggere questa newsletter, per avere invitato altre/i a iscriversi, per darci spesso spunti per i contenuti che pubblichiamo.
🙏Se vuoi sostenerci, puoi farlo in questi modi.
👉 Se ci leggi da e-mail, fai click qui per leggerla per intero
📊 Parlare con i dati Istat grazie all’intelligenza artificiale
È possibile parlare con i dati utilizzando l’intelligenza artificiale? Abbiamo provato a farlo con i dati della statistica ufficiale pubblicati dall’Istat. E i risultati sono stati, a dir poco, sorprendenti.
La diffusione dei dati è sempre stata una fase molto importante di tutto il ciclo di vita del dato, in particolar modo per i produttori di dati della statistica ufficiale. Il modello di diffusione attuale prevede uno o più data warehouse di diffusione dove i dati sono organizzati in “cubi multidimensionali” che è possibile “navigare” utilizzando l’interfaccia grafica della piattaforma di diffusione in modo da filtrare, sezionare, ruotare i dati fino ad ottenere la tabella di dati desiderata.
Oggi, la possibilità di utilizzare l’AI ha cambiato radicalmente le carte in tavola. Dare la possibilità agli utenti di poter accedere all’intera offerta informativa disponibile attraverso conversazioni in linguaggio naturale diventa un’occasione per introdurre un nuovo approccio alla diffusione dei dati, aggiungendo nuove e interessanti modalità di interazione con i dati statistici.
IstatData, “la banca dati dell’istituto Nazionale di Statistica”, è la piattaforma principale utilizzata da Istat per la diffusione dei dati. Una cosa interessante è che non solo è possibile cercare i dati e visualizzarli attraverso un’interfaccia web, ma è possibile accedere ai dati pubblicati anche attraverso API pubbliche. Le API di Istat sono conformi alle specifiche SDMX, uno standard ISO sviluppato appositamente per la trasmissione di dati e metadati statistici tra istituti nazionali di statistica e organizzazioni come Eurostat, FMI, World Bank e altre organizzazioni internazionali. Utilizzando le API, diventa quindi possibile connettere applicazioni esterne ai dati dell’Istituto. E questo vale anche per gli agenti di intelligenza artificiale.
MCP (Model Context Protocol) è uno standard aperto introdotto da Anthropic a novembre del 2024 che è diventato rapidamente lo standard di riferimento per far dialogare agenti di intelligenza artificiale in modo strutturato con sistemi esterni. MCP implementa un’architettura client/server dove il client è l’agente AI, mentre il server MCP contiene la “cassetta degli attrezzi” per interagire con il sistema esterno.
Nel nostro caso, il server MCP contiene tutti gli strumenti necessari per gestire l’interazione con le API SDMX di Istat e per costruire correttamente le chiamate agli endpoint dell’Istituto. Ma come funziona concretamente? Il nostro chatbot AI, ad esempio Claude Desktop, nel momento in cui lo avviamo, carica il server e tutti i vari tool che sono implementati all’interno del server. Quando un utente effettua una richiesta, questa va fatta specificando che si stanno richiedendo dati di Istat, in modo tale che l’agente “capisca” che deve interagire con il server MCP. L’applicazione agisce quindi da orchestratore: legge la configurazione, avvia il server MCP come processo locale e gestisce lo scambio di messaggi con il server e le chiamate ai tool, estendendo di fatto le capacità dell’assistente AI. Se la richiesta è qualcosa come “Quali sono i dataflow Istat per uno studio sulle coltivazioni agricole”, l’agente AI vede che la richiesta riguarda i dati Istat e andrà a guardare tra i tool disponibili nel server MCP, dove andrà a chiamare il tool “discover_dataflow”, la cui funzione è proprio quella di individuare i dataflow che hanno attinenza con la richiesta fatta. E così via.
Diventa quindi un’“interfaccia universale” per accedere a dati, fare analisi, ottenere visualizzazioni interattive e un’infinità di altre cose che possiamo chiedergli “parlando con i dati”. E così tutti gli altri client MCP compatibili.
La versione 1.0 del server può essere installata seguendo le istruzioni del seguente link su Github: https://github.com/ondata/istat_mcp_server.
Suggeriamo di installare anche la skill dedicata.
Il repository di Github è dove raccogliamo le segnalazioni che utilizzeremo per migliorare il server e rilasciare versioni successive più robuste ed efficienti.
Grazie in anticipo a chi lo vorrà provare e vorrà dare il proprio contributo. E un grosso grazie a 👏 Vincenzo Patruno, che lo ha immaginato, progettato e sviluppato.
Questo server MCP è in linea con il ckan-mcp-server presentato nel numero precedente, che consente di accedere in linguaggio naturale a qualsiasi portale open data basato su CKAN (più sotto info su una live dedicata): cercare dataset, esplorare organizzazioni, interrogare dati tabulari e leggere metadati.
🗺️ Ancora una volta sui dati aperti sui Numeri Civici e sulla loro qualità
Circa un anno fa avevamo già parlato dei dati aperti sui Numeri Civici, raccontando di un’opera incompiuta. Ci torniamo, perché a distanza di un anno emergono delle evidenze degne di nota.
L’ANNCSU — l’Archivio Nazionale dei Numeri Civici e delle Strade Urbane, gestito da Istat e Agenzia delle Entrate — pubblica mensilmente in open data l’indirizzario di tutti i civici italiani. È un dataset classificato “di alto valore” dal Regolamento europeo 2023/138. Lo usano pubbliche amministrazioni, aziende, ricercatori. È uno dei dati di base, per sapere “dove sono le cose”, su cui si costruiscono servizi, si pianificano interventi, si prendono decisioni.
Abbiamo scaricato il file di marzo 2026 dal portale ufficiale (anncsu.gov.it) e fatto un controllo elementare: prendere ogni indirizzo geocodificato, costruire il punto con le coordinate fornite, e verificare che cada nel territorio del comune a cui il record dichiara di appartenere. Un test banale. Il minimo sindacale.
I numeri
Il file contiene 27,6 milioni di record, uno per ogni civico d’Italia. Di questi, il 52,4% ha coordinate geografiche — 14,5 milioni di indirizzi. Un miglioramento significativo rispetto a un anno fa, quando i civici geocodificati erano appena il 4%. Ma quasi la metà dell’archivio resta ancora senza coordinate. Vale la pena però ricordare che il Regolamento di esecuzione (UE) 2023/138 è entrato in vigore il 9 febbraio 2023 ed è diventato applicabile dal 9 giugno 2024. Da quella data, i dati di elevato valore dovevano essere resi disponibili come dati aperti, gratuitamente e attraverso API e download in blocco. Sono passati quasi due anni.
Dei 14,5 milioni con coordinate, abbiamo verificato in quale poligono comunale ISTAT cade ciascun punto. Il risultato:
14.284.505 (98,83%) cadono nel comune corretto
157.717 (1,09%) cadono in un comune diverso da quello dichiarato
11.983 (0,08%) non cadono in nessun comune
Una nota: per il test abbiamo usato i confini delle unità amministrative a fini statistici di Istat, nella versione generalizzata (meno dettagliata). Questo significa che una parte degli errori è legata a civici che ricadono vicino a un confine amministrativo e che, per effetto della semplificazione geometrica, risultano erroneamente associati a un altro comune. Il numero reale di errori è quindi un po’ inferiore.
Detto questo, quasi 170.000 indirizzi hanno coordinate che puntano nel posto sbagliato.
Posizioni geografiche errate
In questa tabella di riepilogo, le prime 5 regioni per numero di indirizzi geocodificati che cadono fuori dal comune dichiarato:
A livello provinciale, Messina raggiunge il 7,29% e Catanzaro il 6,70%.
Ci sono 13 comuni in cui oltre la metà degli indirizzi geocodificati punta fuori dal proprio territorio. In 4 di questi — Furnari, Venetico, Montalbano Elicona (ME) e Stalettì (CZ) — la percentuale supera il 99%.
Ma ci sono anche casi in cui i punti ricadono nel territorio comunale corretto, eppure sono posizionati in modo del tutto errato: come questi 10.500 punti ammassati in pochi metri, a formare una “farfalla”.
Cosa significa
Non si tratta di coordinate spostate di qualche metro. Si tratta di punti che cadono nel territorio di un altro comune. O a mare, o come se fossero disegnati da un bambino o una bambina.
Questo tipo di dataset viene usato per geocodificare servizi, calcolare distanze, costruire indicatori territoriali. Chi lo usa in buona fede — perché è il dato ufficiale — rischia di attribuire indirizzi al comune sbagliato. E non ha modo di saperlo, a meno di non fare il controllo che abbiamo fatto noi.
Il punto
Errori nel processo di raccolta e consolidamento di 27 milioni di record sono inevitabili. Nessuno si aspetta la perfezione. Ma il test che abbiamo eseguito — un point-in-polygon tra le coordinate fornite e i confini ISTAT — è il controllo di qualità più elementare che esista per un dato geografico. Richiede pochi minuti di calcolo.
Se un dataset viene pubblicato come open data ufficiale di alto valore, chi lo scarica si aspetta che sia passato almeno attraverso i controlli minimi. Pubblicare dati non verificati su un canale ufficiale è come immettere acqua non controllata nella rete idrica.
C’è un altro numero che merita attenzione: il 47,6% dei civici non ha ancora coordinate. Quasi la metà dell’archivio non è geocodificata. È un dato che, da solo, limita drasticamente l’utilità del dataset per qualsiasi applicazione spaziale.
Nota metodologica
Fonte indirizzario: ANNCSU, file
INDIR_ITA_20260306.csvscaricato il 29 marzo 2026Confini comunali: ISTAT, limiti amministrativi al 1° gennaio 2025 (
Com01012025_g_WGS84.shp)Anagrafe comuni: ISTAT, elenco comuni al 1° dicembre 2025
Strumenti: DuckDB con estensione spatial (indice R-tree per il point-in-polygon)
Test: per ogni record con coordinate valorizzate, è stato creato un punto (lon/lat) e verificata l’appartenenza al poligono comunale tramite
ST_Contains
Per farsi un’idea
Suggeriamo di dare un’occhiata a questo lavoro di analisi dell’evoluzione della georeferenziazione dei numeri civici di ANNCSU a cura di Matteo Fortini. Un lavoro che mostra come, nonostante i miglioramenti, ci sia ancora molta strada da fare.

🌍 CKAN compie 20 anni: il futuro dei dati aperti nell’era dell’AI
A marzo 2026, la Open Knowledge Foundation ha organizzato la conferenza online The Future of Open Data, con una tavola rotonda dal titolo “CKAN at 20: The Future of Open Data in the Era of AI”. È stato invitato a partecipare anche il nostro Andrea Borruso.
CKAN — la piattaforma open source che da 20 anni alimenta i portali open data di oltre 40 paesi — è al centro di una riflessione importante. Come ha sintetizzato Rufus Pollock (fondatore di OKFN): “Rendere i dati disponibili non è la stessa cosa che renderli utili. Molti portali sono ancora degli schedari ben organizzati”. Il vero collo di bottiglia non è mai stato l’accesso tecnico, ma l’accesso cognitivo: sapere cosa chiedere, come interrogare i dati, come interpretarli.
Dalla tavola rotonda sono emersi alcuni spunti chiave:
L’AI come ponte tra disponibilità e comprensione dei dati. Il linguaggio naturale diventa il linguaggio di interrogazione: chi ha una domanda non deve più essere un data engineer per ottenere una risposta. È il cambio di paradigma che i portali open data aspettavano da vent’anni.
MCP server come un’interfaccia per i portali. Diversi relatori hanno mostrato server MCP per CKAN: da quello di data.gouv.fr (il portale open data francese, che ha ricevuto contributi dalla comunità ed è già stato forkato per altri portali nazionali), a quello di datHere (che genera notebook verificabili invece di risposte libere), fino al nostro ckan-mcp-server, attualmente il pacchetto npm più scaricato legato a CKAN. Un dato significativo: l’ufficio statistico della città di Zurigo ci ha contattati perché un cittadino aveva chiesto loro “Avete un MCP server per il vostro catalogo open data?”. Gli utenti si aspettano già questo tipo di interfaccia.
Privacy e modelli locali. Steven De Costa (Link Digital) ha raccontato l’esperienza con LLM locali per i portali governativi: quando si lavora con dati potenzialmente sensibili, non si possono inviare a servizi cloud esterni. I modelli locali sono meno potenti ma garantiscono che i dati restino sotto il controllo dell’ente.
Verificabilità e responsabilità. Più relatori hanno insistito sul fatto che l’AI applicata ai dati aperti deve produrre risultati verificabili. L’approccio di datHere — generare notebook riproducibili anziché risposte testuali — è emblematico: non basta dare una risposta, bisogna mostrare come ci si è arrivati.
I dati aperti diventano più importanti, non meno. Come ha sottolineato Pollock, l’AI non rende obsoleti i dati aperti: li rende più preziosi. Dati affidabili, documentati e accessibili via API sono il fondamento su cui l’AI può costruire risposte utili. Senza dati di qualità, l’AI produce solo allucinazioni ben formattate.
Alla tavola rotonda hanno partecipato anche Antonin Garrone (data.gouv.fr), Jamaica Jones (CKAN/POSE Community Manager, moderatrice), Joel Natividad (datHere), Patricio Del Boca (OKFN).
🔓 Licenza sito Ministero della Giustizia: il difensore civico è d’accordo con noi
A novembre 2024 avevamo segnalato al Difensore Civico per il Digitale la licenza d’uso inadeguata del sito del Ministero della Giustizia: restrittiva, incompatibile con le norme sul riutilizzo dei dati pubblici, in contrasto con il CAD e con le direttive europee.
Dopo oltre un anno di attesa — la risposta è arrivata a inizio 2026 — il Difensore Civico ha stabilito che la nostra segnalazione “è stata ritenuta non manifestamente infondata”. La questione è stata quindi trasmessa ad AGID per l’esercizio dei poteri di vigilanza previsti dalla normativa.
Non possiamo ancora gridare vittoria, ma è un passo avanti concreto.
📊 Ora di religione: la Uaar libera i dati anno dopo anno
Per il quarto anno consecutivo, l’Unione degli Atei e degli Agnostici Razionalisti (Uaar) ha richiesto al Ministero dell’Istruzione e del Merito e alle province autonome di Trento e Bolzano i dati sul numero di studenti che scelgono di non avvalersi dell’insegnamento della religione cattolica nella scuola pubblica.
I numeri parlano chiaro: il 17,7% degli studenti non frequenta l’ora di religione, in crescita rispetto al 16,7% dell’anno precedente. Ogni anno circa 42.000 studenti in più scelgono di non partecipare. Le regioni con la percentuale più alta sono Valle d’Aosta (34,46%), Emilia Romagna (30,65%) e Toscana (30,60%). In tre comuni — Monfalcone, Pinerolo e Firenze — chi non si avvale supera il 50%.
È un esempio concreto di come la richiesta sistematica di dati pubblici possa documentare un fenomeno altrimenti invisibile. Senza questa ostinazione nel chiedere i dati anno dopo anno, il trend non sarebbe raccontabile. L’analisi completa è sul blog della Uaar.
Chiudiamo con una richiesta che ripetiamo volentieri anche noi: il Ministero dell’Istruzione e del Merito dovrebbe pubblicare autonomamente questi dati, ogni anno, senza che sia necessario che un’associazione presenti una richiesta di accesso civico. La Circolare FOIA n. 2/2017 (sezione 8.2, “Pubblicazione proattiva”) è molto chiara: “la pubblicazione proattiva sui siti istituzionali delle amministrazioni è fortemente auspicabile quando si tratti di informazioni di interesse generale o che siano oggetto di richieste ricorrenti”. Quattro anni consecutivi di richieste ci sembra una buona ricorrenza.
🎬 L’AI che interroga i dati aperti: la nostra live su CKAN e schema.gov.it
Il 13 marzo abbiamo trasmesso una live in cui Matteo Fortini e Andrea Borruso hanno mostrato come far dialogare un assistente AI con i portali di dati aperti pubblici, senza scrivere codice e senza conoscere API.
Lo hanno fatto attraverso due server MCP (Model Context Protocol), il protocollo aperto che permette agli assistenti AI di usare strumenti esterni come “estensioni” del proprio ragionamento:
🧠 dati-semantic-mcp (Matteo Fortini) — questo è particolarmente interessante. È un server MCP che si collega a schema.gov.it, il catalogo nazionale della semantica dei dati della PA italiana. Permette all’AI di esplorare ontologie, vocabolari controllati, schemi dati e le connessioni tra concetti. In pratica, rende l’assistente AI consapevole non solo dei dati grezzi, ma del significato di quei dati: cosa rappresentano, come sono classificati, quali standard seguono. È il tipo di strumento che potrebbe facilitare il modo in cui si costruiscono dati aperti di qualità;
🔍 CKAN MCP Server (Andrea Borruso / onData) — collega l’AI a qualsiasi portale CKAN, tra cui dati.gov.it, data.gov, open.canada.ca e altri 500+ portali mondiali. Permette di cercare dataset, interrogare tabelle con query SQL, esplorare organizzazioni e tag, tutto chiedendo in linguaggio naturale.
Un punto importante emerso dalla live: MCP è un protocollo machine-to-machine. Questi server non sono solo “plugin” per assistenti generalisti — sono interfacce standard che si possono integrare in applicazioni, pipeline di dati, agenti automatizzati. Se state costruendo qualcosa che ha bisogno di accedere a dati aperti pubblici, questi strumenti sono già pronti da usare.






Bellissimo post, soprattutto la parte su ANNCSU devo dire ben fatta. Grazie!
Grazie per il post, come sempre molto interessante.
Mi permetto però di suggerire una piccola modifica: il commento (in grassetto) sui dati 'disegnati da una bambina piccola' ha un sapore odiosamente sessista.
In Italiano scrivere 'bambina' al femminile indica una chiara connotazione di genere, e non posso fare a meno di immaginare che si voglia sottolineare lo stereotipo secondo il quale disegnare farfalle è prerogativa femminile e non maschile.
Faccio anche fatica a capire come si possa utilizzare il paragone con un disegno infantile per stigmatizzare quello che appare un artefatto causato da un probabile errore di conversione/scalatura dei dati. Ci vorrebbe un po' più di rispetto per i disegni dei bambini, che rappresentano una tappa evolutiva importante nello sviluppo di capacità cognitive complesse.