Associazione onData - Accesso ai dati e invisibilità statistica
Statistiche ufficiali senza barriere, la condizione NEET e una licenza che cambia
Ciao, grazie per essere qui a leggere questa newsletter, per avere invitato altre/i a iscriversi, per darci spesso spunti per i contenuti che pubblichiamo.
🙏Se vuoi sostenerci, puoi farlo in questi modi.
Questo numero è un po’ speciale, con due sezioni a cui teniamo in modo particolare.
La prima nasce da un incontro fortunato, come spesso succede lungo le strade dell’attivismo civico: ci siamo imbattuti in Nadiia, un’attivista ucraina che cercava di leggere i dati del proprio ufficio statistico nazionale — da Kyiv, nel mezzo di una guerra. Proprio in quelle settimane stavamo lavorando a uno strumento per rendere più accessibili i dati statistici aperti. La coincidenza ci ha sorpresi. Leggete la sua storia: la tenacia che ci racconta, l’energia che trasmette, il contesto in cui si è spesa per raggiungere i suoi obiettivi.
La seconda è il lavoro di ricerca di Marialuisa, su un tema che non “invecchia”: i giovani che si trovano fuori dal sistema educativo e dal mercato del lavoro. Un tema di cui si parla da anni, ma che il suo libro aiuta a vedere in modo diverso — mettendo al centro non il numero, ma ciò che il numero nasconde. E c’è un paradosso difficile da accettare: chi si trova nelle condizioni più difficili è spesso invisibile agli strumenti che dovrebbero aiutarci a capirlo.
👉 Se ci leggi da e-mail, fai click qui per leggerla per intero
🌻 Non sono una programmatrice. Eppure l’ho fatto.
Non sono una programmatrice. Non sono una data scientist, né una statistica. Da quindici anni sono un’attivista per i dati aperti e per i diritti civici — che crede che le informazioni del settore pubblico appartengano a tutti e debbano essere aperte, accessibili e riutilizzabili. Per molti anni, accessibilità, interoperabilità, leggibilità automatica e riutilizzabilità sono stati i temi centrali del mio attivismo. Ho trascorso centinaia di ore a formare funzionari pubblici, attiviste e attivisti della società civile, persino giudici, sui dati aperti nell’accezione classica. Ma ora, nell’era dell’AI, non basta più. Oggi i dati devono anche essere pronti per l’intelligenza artificiale e reperibili.
Vivo e lavoro a Kyiv, in Ucraina. C’è una guerra vera, sanguinosa, in corso. La Russia lancia centinaia di missili e droni quasi ogni giorno. Volano sopra le nostre teste, distruggono le nostre case, tolgono vite. Ci sono sirene continue, molte ore di interruzioni di corrente e, di conseguenza, mancanza di internet. I nostri figli trascorrono ore nei rifugi invece che in classe. Le nostre persone care combattono per la libertà europea al fronte. Mio marito ha perso una mano in questa guerra e si trova attualmente in riabilitazione in ospedale.
Niente di tutto questo ferma il bisogno — e la mia dedizione — affinché cittadine e cittadini, giornaliste e giornalisti, ricercatrici e ricercatori (persino i funzionari pubblici!) possano accedere ai dati pubblici in Ucraina. Anzi, lo rende più urgente. Ne abbiamo bisogno per sopravvivere, per ricostruire, per prosperare. Abbiamo bisogno dei dati aperti per combattere la guerra dell’informazione: se non ci sono dati sull’Ucraina e dall’Ucraina nell’infrastruttura dell’AI, ci saranno le falsificazioni.
Nonostante tutti gli ostacoli, apro il mio modestissimo laptop e cerco risposta a una domanda che mi accompagna: i nostri dati ufficiali sono davvero aperti nell’era dell’AI? Come renderli davvero aperti? Non solo aperti in senso giuridico, o aperti nel senso classico, ma accessibili e reperibili — da chiunque e da qualsiasi cosa, da esseri umani e intelligenze artificiali, senza registrazione, senza identificazione, senza essere specialiste o specialisti. E inizio i miei test.
La legislazione ucraina sui dati aperti è chiara: accedere ai dati aperti non richiede né registrazione né identificazione (link). Ma un diritto legale vale quanto l’infrastruttura di dati che lo rende praticabile.
L’anno scorso, il Servizio statale di statistica dell’Ucraina — Derzhstat (n.d.r. il servizio statistico statale ucreaino) — ha lanciato StatGPT (stat.gov.ua), un assistente AI integrato nel loro nuovo sito. È impressionante: risponde rapidamente a domande su inflazione e demografia. C’è però un problema: per usarlo bisogna identificarsi tramite BankID o un altro sistema di verifica ufficiale. Le tue ricerche vengono registrate. La tua privacy è il prezzo dell’accesso.
Questo non è apertura. È esclusività travestita da servizio AI moderno.
Volevo capire se i dati sottostanti potessero essere raggiunti in modo diverso. Tramite un modello locale e privato, in esecuzione sul mio computer. Senza cedere la mia identità, e senza conoscenze da programmatrice o da statistica.
Ho iniziato a costruire un server MCP (Model Context Protocol) personalizzato con l’aiuto dell’AI. Ho testato Llama 3.2 3B e Qwen 2.5 7B, perché hardware più potenti non erano alla mia portata. Ho generato centinaia di prompt e varianti di codice. Ho letto documentazione. Ho mappato i dataflow.
Quello che ho incontrato era un muro fatto di errori 404, errori 500 e allucinazioni. Per ottenere dati sull’inflazione, per esempio, non basta chiedere “inflazione”. Bisogna sapere che Derzhstat la archivia sotto l’identificatore DF_PRICE_CHANGE_CONSUMER_GOODS_SERVICE. Il sistema non è progettato per essere scoperto; è progettato per chi già sa.
Ero quasi arrivata ad arrendermi.
Sotto uno dei miei post (link) su questa difficoltà, Andrea Borruso dell’associazione onData mi ha contattata. Ha suggerito un approccio più semplice: invece di costruire un server da zero, usare uno strumento già esistente — opensdmx — che sa già come leggere i dati statistici in formato SDMX (Statistical Data and Metadata eXchange) passo dopo passo. (github.com/ondata/opensdmx)
Ho configurato Qwen 2.5 7B in locale tramite LM Studio, usato l’agente opencode e collegato tutto a opensdmx (discussione). Poi ho scritto una domanda in ucraino: Qual era il tasso di disoccupazione nella regione di Chernivtsi, suddiviso per genere, in un anno specifico?
E ha funzionato.
La risposta è arrivata dalla fonte reale — verificata (link). Nessun codice necessario. Nessun identificatore dataflow da memorizzare. Nessuna identificazione richiesta. E, cosa fondamentale: quando il dato non era disponibile, il sistema lo ha detto. Non ha inventato numeri.
Questo esperimento ha anche rivelato problemi strutturali: dataset non aggiornati da anni, documentazione API carente, metadati presenti dove i dati completi non ci sono. Non sono fallimenti del mio setup; sono fallimenti del sistema così come è stato costruito.
Il motivo per cui tengo così tanto ai modelli locali e privati è una questione di principio. Se una cittadina o un cittadino ha il diritto legale di accedere ai dati senza identificazione, anche gli strumenti che li aiutano non dovrebbero richiederla. Un servizio cloud che registra le tue ricerche o una piattaforma che richiede BankID impone un costo che la legge dice esplicitamente non debba esistere.
Un modello che gira sul tuo laptop, che legge da un’API pubblica e non lascia tracce: così dovrebbe tradursi in pratica il diritto ai dati aperti.
Ho cominciato a condividere queste scoperte con il Servizio statale di statistica. Un dialogo reale è iniziato. Le mie richieste sono semplici ma richiedono lavoro: aggiornare i dati, scrivere documentazione chiara, pubblicare identificatori e cataloghi, rendere StatGPT davvero aperto — più simile a una biblioteca pubblica senza identificazione. E spero che insieme riusciremo a fare la differenza.
A chi guarda parole come MCP, SDMX o LLM e sente di essere nella “stanza sbagliata”: non è così.
Ciò che ha fatto la differenza per me è stato trovare una comunità — il mondo dei dati aperti, le persone intorno a onData, le colleghe e i colleghi su LinkedIn e GitHub — dove sono stata supportata, non derisa. La mia curiosità ha persino aiutato esperte ed esperti a migliorare strumenti per tutte e tutti.
Ancora oggi stento a crederci, ma ho costruito un ponte locale, privato e anonimo verso la statistica ufficiale — in ucraino, su un laptop modesto, nel mezzo di una guerra.
Se posso farlo io, puoi farlo anche tu.
Ci sono persone — appassionate che creano strumenti liberi e facili da usare — che ti supporteranno e festeggeranno con te il tuo successo 🤗
📚 Dare una nuova lettura alla condizione NEET è possibile?
Il termine NEET, acronimo di Not in Employment, Education and Training, viene utilizzato per indicare la quota di popolazione tra i 15 e i 29 anni che si trova fuori dal sistema educativo e dal mercato del lavoro.
Questo mese, come onData, partiamo da qui per raccontare il libro della nostra socia Marialuisa Villani: “La condizione NEET tra esclusione e disuguaglianze in Italia: Analisi critica del concetto e delle evidenze empiriche”.
Oggi in Italia il tasso dei NEET è sceso al 15,2%. Una buona notizia, senza dubbio. Ma è sufficiente per dire che il problema è superato?
La risposta è no, se si prova a guardare oltre il dato e a leggere il fenomeno attraverso la lente delle disuguaglianze. Il libro propone infatti uno spostamento di prospettiva: non limitarsi a misurare il fenomeno, ma interrogarsi su cosa quel numero nasconde. Perché dietro la categoria NEET si trovano condizioni molto diverse tra loro, che non possono essere comprese senza considerare i processi che le generano.
In questa prospettiva, la condizione NEET non può essere ridotta a una semplice categoria statistica, ma rappresenta l’esito, spesso temporaneo ma non sempre reversibile, di traiettorie segnate da opportunità diseguali.
L’analisi mostra come l’esclusione giovanile non sia il risultato di scelte individuali isolate, ma il prodotto di fattori che si accumulano nel tempo: sistema educativo, mercato del lavoro, welfare, origine sociale, genere, background migratorio. Sono queste dimensioni, nel loro intreccio, a modellare i percorsi dei giovani.
Ciò che emerge è una tensione evidente. Da un lato, il sistema educativo italiano mostra alcuni segnali di miglioramento.
Dall’altro, i territori, il mercato del lavoro e le condizioni economiche restituiscono un quadro molto più complesso.
Non esiste un’unica esperienza NEET, ma una pluralità di condizioni, con intensità e durate differenti, profondamente influenzate dal contesto sociale e territoriale. La questione della classe sociale torna così al centro dell’analisi, non per riproporre letture deterministiche o rafforzare lo stigma, ma come lente capace di rendere visibili i meccanismi che producono disuguaglianza e di orientare le politiche pubbliche.
I divari territoriali giocano un ruolo cruciale. Nel Nord e in parte del Centro si osservano livelli di povertà più contenuti, mercati del lavoro relativamente più dinamici e una maggiore disponibilità di servizi.
Nel Mezzogiorno, invece, si concentrano condizioni più fragili: maggiore rischio di povertà, più alta incidenza di abbandono scolastico, minore quota di laureati, maggiore precarietà lavorativa e una più debole infrastruttura di welfare.
Non è un singolo fattore a spiegare queste differenze, ma la loro combinazione. Quando più svantaggi si concentrano nello stesso contesto, tendono a rafforzarsi reciprocamente. In questa prospettiva, i dati non restituiscono semplicemente una frattura Nord-Sud, ma offrono una chiave di lettura per individuare dove il sistema è più fragile e dove è necessario rafforzare servizi e opportunità.
L’istruzione continua a rappresentare uno dei principali fattori di protezione rispetto al rischio di entrare e permanere nella condizione NEET. Tuttavia, questo effetto non è automatico.
Dipende in modo cruciale dalle condizioni dei contesti territoriali e dalla qualità delle opportunità occupazionali disponibili. I dati mostrano che bassi titoli di studio e basse competenze aumentano il rischio di NEET di lungo periodo, ma anche che l’istruzione, da sola, non è sufficiente.
Per questo, le politiche educative devono essere collocate all’interno di un più ampio quadro di investimento sociale. Interventi come Garanzia Giovani hanno provato a integrare formazione e attivazione, ma con risultati limitati nei contesti più fragili.
Una prospettiva di corso di vita rende evidente la necessità di investimenti precoci, in particolare nei servizi per la prima infanzia, anche per sostenere la partecipazione femminile al lavoro.
La dimensione di genere è centrale: le ragazze ottengono in media risultati scolastici migliori, ma questo vantaggio non si traduce automaticamente in migliori opportunità occupazionali. In particolare, la presenza di figli può aumentare il rischio di permanenza nella condizione NEET.
Nei contesti caratterizzati da precarietà diffusa, bassi salari e scarse tutele, anche competenze più elevate rischiano di non produrre effetti significativi. I dati mostrano infatti che, nei territori con maggiore diffusione di lavoro instabile, precarietà e tassi di NEET tendono a rafforzarsi reciprocamente, configurando un modello strutturale di esclusione.
Accanto alle evidenze empiriche, il volume mette in luce un nodo trasversale: i limiti degli strumenti statistici utilizzati per analizzare la condizione NEET. Questi limiti incidono direttamente su ciò che riusciamo a vedere e, quindi, su ciò che viene riconosciuto come oggetto di intervento pubblico.
Le principali fonti statistiche misurano lo status occupazionale e formativo in un determinato momento, ma faticano a restituire la complessità delle traiettorie giovanili. Rimangono spesso invisibili la qualità delle esperienze lavorative e formative, la durata e la ricorsività dei periodi di inattività, così come i fattori materiali e relazionali che condizionano l’accesso alle opportunità.
Ancora più rilevante è ciò che questi dati non riescono a intercettare: responsabilità di cura, condizioni di salute e disabilità, lavoro informale, barriere nell’accesso ai servizi.
L’assenza di queste informazioni produce una forma di invisibilità statistica che colpisce in modo selettivo i gruppi più vulnerabili.
Questo lavoro ci ricorda un punto essenziale: non è possibile comprendere la condizione NEET senza analizzare le disuguaglianze che la producono, ma anche che servono dati migliori, più completi e accessibili, capaci di restituire la complessità delle traiettorie giovanili.
In questa direzione, il volume è disponibile in open access: https://doi.org/10.30682/9791254777688
🔧 opensdmx: un tool per esplorare i dati statistici con l’aiuto dell’AI
I dati statistici ufficiali — quelli ad esempio di Istat, Eurostat, OCSE, Banca Mondiale — sono spesso accessibili tramite API in formato SDMX (Statistical Data and Metadata eXchange). Un formato potente, standardizzato, documentato, ma — come ha raccontato Nadiia — non alla portata di tutte le persone.
Da qui nasce opensdmx: una CLI (e libreria Python) open source che abbiamo sviluppato per esplorare e interrogare questi dati in modo semplice, pensata per essere guidata da un agente AI.
Il problema di fondo è noto: i modelli linguistici sono bravi a capire le domande, ma a volte “inventano” i numeri. Una ricerca dell’FMI ha dimostrato che i sistemi di AI generativa sbagliano i numeri la maggior parte delle volte — restituendo cifre che sembrano ragionevoli, ma non corrispondono ai dati pubblicati. La soluzione corretta non è chiedere all’AI di produrre i dati, ma di costruire la query giusta — e poi affidarsi a uno strumento affidabile per recuperare i dati reali dalla fonte. opensdmx è quel livello di esecuzione: l’AI decide cosa cercare, opensdmx recupera il dato pubblicato.
In pratica, l’agente usa i comandi della CLI passo dopo passo: cerca nei cataloghi, esplora la struttura del dataset, applica i filtri e scarica i dati. Il risultato arriva sempre dalla fonte ufficiale, verificabile.
Lo sviluppo di opensdmx ci spinge spesso a interrogare i dati italiani, e quindi l’endpoint SDMX di Istat. Purtroppo, rispetto a Eurostat, l’accesso machine-to-machine verso Istat presenta alcune barriere concrete. Gli endpoint di discovery — quelli che permettono di sapere programmaticamente quali valori sono presenti in un dataset — sono spesso non funzionanti o lenti. Senza un sistema a token, il rate limit di circa 5 query al minuto (con blocco IP fino a 48 ore) è così basso che basta una fase esplorativa un po’ intensa per ritrovarsi bloccati — anche senza aver scaricato un singolo dato. Per questo abbiamo scritto a Istat con tre richieste: abilitare sistematicamente gli endpoint di discovery, adottare un limite differenziato tra chiamate di metadati e chiamate dati, e introdurre un sistema di API key per utente registrato — modello già adottato da molte altre PA italiane.
In questo filmato introduttivo viene mostrato come installare opensdmx e la skill dedicata (che ti consigliamo di usare):
⚖️ Abbiamo fatto cambiare la licenza di alcuni dati del Senato
Ogni tanto succede qualcosa di semplice ma che vale la pena raccontare: si segnala un problema, e qualcuno dall’altra parte risponde, recepisce e agisce.
Il repository AkomaNtosoBulkData del Senato della Repubblica contiene i testi completi degli atti legislativi in formato XML Akoma Ntoso — un formato aperto e internazionale pensato per i documenti parlamentari. Dati preziosi, strutturati, riutilizzabili.
Il problema era che i README citavano una licenza Creative Commons, ma nel repository non c’era nessun file LICENSE. E la versione indicata era la CC BY 3.0, che non copre esplicitamente i Sui Generis Database Rights — la tutela giuridica specifica prevista per le banche dati. In pratica, la licenza citata era quella meno adatta proprio per un repository di dati.
Abbiamo aperto una pull request proponendo di aggiungere il file LICENSE e di aggiornare alla CC BY 4.0 — una delle licenze raccomandate nelle Linee Guida Open Data dell’Agenzia per l’Italia Digitale, progettata esplicitamente per i dati.
La risposta del Senato è stata rapida e cordiale: la PR è stata chiusa perché il repository viene generato automaticamente, ma la modifica è stata recepita. Il commit in produzione del 20 maggio 2026 lo conferma.
Piccola cosa, grande differenza: i dati legislativi del Senato sono ora rilasciati con una licenza esplicita, corretta e adatta al loro uso.
📍 I numeri civici di Palermo ora sono importabili in OpenStreetMap
I numeri civici del Comune di Palermo sono pubblici, aperti, sotto licenza CC BY e pubblicati nell’Archivio Nazionale dei Numeri Civici delle Strade Urbane (ANNCSU). Eppure non erano importabili in OpenStreetMap (OSM), che usa la licenza ODbL. Le due licenze non sono direttamente compatibili, senza un esplicito permesso del produttore del dato.
Allora - insieme a rappresentanti di Wikimedia Italia e della comunità OpenStreetMap - abbiamo scritto a Ciro Spataro, il responsabile open data del Comune, per chiedere alla PA di consentire l’importazione di questo prezioso insieme di dati in OSM.
Lavorando insieme con Anisa Kuci, Daniele Santini e Giovanni Pennisi - a loro e a Ciro Spataro il nostro grazie - il Comune ha aggiunto il waiver nei metadati: i numeri civici di Palermo sono ora importabili in OpenStreetMap.
Una soluzione piccola, elegante, replicabile da ogni Comune italiano.


