1. introduzione
Il diritto all’oblio affonda le sue radici nel diritto francese degli anni Settanta del secolo scorso, quando si riconobbe a chi aveva scontato una condanna penale il diritto a non vedere continuamente riemergere le proprie vicende giudiziarie. Nel 1983 la Corte Costituzionale tedesca stabilisce che il libero sviluppo della personalità comprende il potere dell’individuo di decidere quando e in quali limiti le informazioni che lo riguardano vengano rese note agli altri. Si tratta del principio di autodeterminazione informativa, che è diventato la matrice concettuale di tutta la successiva elaborazione europea.
Successivamente la Direttiva 95/46/CE, codifica per la prima volta a livello sovranazionale i principi di protezione dei dati personali, incluso il diritto alla cancellazione in casi specifici, anche se non menziona esplicitamente il “diritto all’oblio”, ne pone le basi normative, recependo concettualmente l’autodeterminazione informativa della Corte Costituzionale tedesca.
Nel 2000 con il Caso Amann c. Svizzera la Grande Camera ha consolidato l’interpretazione dell’art. 8 della Convenzione Europea dei diritti dell’Uomo sulla tutela della vita privata, come comprensivo della protezione dei dati personali. Questo aggancia il diritto alla privacy convenzionale alla dimensione informativa. Con l’avvento di internet e del conseguente meccanismo della memoria permanente il problema della tutela del diritto all’oblio diventa strutturale. La direttiva 95/46 era infatti pensata per banche dati tradizionali. Con l’esplosione del web, la questione cambia natura: non è più relativa a “chi conserva i dati” ma a “chi li rende universalmente accessibili e indicizzati”. I motori di ricerca creano un problema giuridico nuovo che la direttiva non poteva aver anticipato.
Negli anni tra il 2009 e il 2012 durante il dibattito preparatorio al GDPR (Regolamento UE 2016/679), la Commissione Europea lavorò alla riforma dell’intero quadro normativo. Per la prima volta venne esplicitamente inserito il “right to be forgotten” come obiettivo politico nel 2010, alimentando un intenso dibattito, soprattutto con le imprese tech americane che posero in atto una dura resistenza all’introduzione di una tale regolamentazione.
La vera svolta giurisprudenziale, a livello europeo, è maturata nel 2014, quando la Corte di Giustizia dell’Unione Europea, nel caso Google Spain, affermò che un motore di ricerca è responsabile del trattamento dei dati che indicizza, e che il singolo può chiederne la rimozione anche quando la notizia originaria sia stata pubblicata lecitamente; ciò che rileva non è solo la verità del dato, ma la sua attuale pertinenza e proporzionalità rispetto alla persona che ne subisce gli effetti.
Il caso Google Spain arriva, quindi, non come fulmine a ciel sereno, ma come punto di arrivo di un percorso in cui il diritto sostanziale esisteva già in forma embrionale anche se mancava una pronuncia che lo applicasse ai motori di ricerca e alle piattaforme di indicizzazione, soggetti che il diritto preesistente non aveva ancora qualificato come titolari autonomi del trattamento dei dati che aggregano.
Questo principio è stato in seguito codificato nell’articolo 17 del GDPR, che disciplina il “diritto alla cancellazione” come diritto condizionato – non assoluto – da bilanciare con la libertà di informazione, l’interesse pubblico e altri valori fondamentali.
La tensione tra “memoria analogica” e “memoria digitale” emerge proprio qui: nelle società pre-digitali l’oblio era la condizione naturale, il tempo erodeva spontaneamente la disponibilità delle informazioni e il diritto interveniva solo per accelerare un processo che era già in corso; nell’ecosistema digitale questa relazione si inverte radicalmente, perché la persistenza è il default tecnico e l’oblio diventa un’eccezione che richiede un intervento attivo e deliberato. Viktor Mayer-Schönberger ha definito questa condizione “memoria eterna”, una patologia sociale in cui gli errori del passato restano perennemente accessibili1, comprimendo la capacità degli individui di riscrivere la propria identità nel tempo; una dinamica che Erving Goffman aveva già teorizzato come progetto narrativo in continua revisione: ciò che l’era digitale aggiunge all’intuizione del sociologo è la cristallizzazione permanente dei momenti passati che sottrae all’individuo la possibilità di rinegoziare la propria identità pubblica, rinegoziazione che Goffman considerava un processo costitutivo dell’interazione sociale2.
La questione più urgente e ancora irrisolta riguarda i sistemi di intelligenza artificiale: quando un modello linguistico viene addestrato su grandi quantità di testi che includono dati personali, quelle informazioni non vengono archiviate in un file cancellabile, ma si disperdono – in modo non localizzabile – all’interno della struttura matematica del modello stesso, influenzando le risposte che esso genera senza che esista un meccanismo tecnico affidabile per rimuoverle selettivamente. Cancellare il dato dal database originario non equivale a cancellarlo dalla “memoria” del sistema di IA, che ne ha già estratto e incorporato il contenuto in modo permanente e diffuso. Le tecniche di “disapprendimento” allo studio della ricerca accademica sono ancora sperimentali e prive di verificabilità indipendente.
Il quadro normativo europeo – incluso l’AI Act entrato in vigore nell’agosto 2024 – riconosce la tensione ma non la risolve, lasciando operatori e autorità di controllo in una condizione di applicazione interpretativa di strumenti pensati per archivi tradizionali a sistemi con un’architettura profondamente diversa. Tale incompatibilità, invero, non è sanabile con norme applicate a posteriori, perché riguarda un problema di progettazione dei software, che impone di scegliere tra due strade: obbligare i sistemi di AI a essere costruiti fin dall’inizio con la capacità tecnica di “dimenticare”, oppure ridefinire il perimetro del diritto alla cancellazione per i sistemi di apprendimento automatico, spostando il momento di intervento dal dopo alla fonte, cioè al controllo su quali dati possano essere usati per addestrare un modello prima ancora che l’addestramento avvenga.
Come si mostrerà nelle sezioni seguenti, entrambe le strade presentano ostacoli tecnici e giuridici ancora aperti, che le rendono complementari piuttosto che alternative.
2. Come funzionano la memoria e l’apprendimento nei sistemi di intelligenza artificiale, e perché dimenticare è così difficile?
Un sistema di IA non funziona come una banca dati tradizionale, dove le informazioni sono archiviate in file ordinati e recuperabili singolarmente. Il suo funzionamento è simile a quello di un cervello umano che ha accumulato un’immensa esperienza dopo aver elaborato enormi quantità di testi che il sistema non archivia come file da consultare, ma li assimila trasformando il proprio modo di “ragionare”. Tale trasformazione diventa parte integrante del sistema in modo talmente intrecciata con tutto il resto da non poter essere ricondotta alle singole fonti originarie. Per capire come questo avviene è necessario descrivere il processo di addestramento, che è il cuore del problema sia tecnico che giuridico.
Un modello linguistico per l’IA viene costruito esponendolo a enormi quantità di testo – pagine web, libri, articoli, forum, documenti pubblici e privati raccolti da internet – con l’obiettivo di fargli assimilare le relazioni statistiche tra le parole, in altri termini, dato un certo contesto, qual è la parola più probabile che segue? Questo tipo di apprendimento funziona per tentativi ed errori ripetuti su scala enorme: il modello prova a prevedere quale parola o concetto verrà dopo in un testo, confronta la sua previsione con quello che c’è scritto davvero, misura di quanto si è sbagliato, e usa quell’errore per correggersi modificando leggermente miliardi di parametri interni. Questi parametri sono sostanzialmente dei numeri che indicano quanto il sistema considera importante una certa connessione tra due concetti, ad esempio quanto il termine “sole” sia collegato a “calore” piuttosto che al termine “luna”. Ripetendo questo processo miliardi di volte su miliardi di testi, il sistema impara gradualmente a ragionare in modo sempre più preciso, riuscendo a prevedere il linguaggio con sufficiente precisione. I dati personali entrano in questo processo semplicemente perché internet ne è saturo: nomi, indirizzi, cronache giudiziarie, post sui social media, curriculum pubblicati online, articoli che menzionano persone comuni in circostanze specifiche. Nessuno di questi dati viene “selezionato” deliberatamente ma vengono assunti in blocco perché la costruzione di un modello sufficientemente capace richiede scale di dati talmente grandi da rendere impraticabile qualsiasi selezione manuale. Il risultato è che informazioni personali di milioni di individui – molti dei quali non hanno mai espresso alcun consenso – finiscono incorporate nel processo di addestramento senza che esista un registro di quali dati siano stati usati e in quale misura abbiano influenzato il comportamento finale del sistema.
La differenza tra cancellare un dato da un archivio tradizionale e “disimpararlo” da un modello già addestrato è la differenza tra eliminare una pagina da un libro e cercare di rimuovere l’influenza che quella pagina ha avuto sul modo di pensare di chi l’ha letta. In un database classico, il dato esiste come oggetto discreto e localizzabile: si cancella il record, si aggiorna l’indice, e il dato non è più recuperabile dal sistema. In un modello linguistico, invece, l’informazione non esiste come oggetto separato, è stata “digerita” durante l’addestramento e ha contribuito, insieme a milioni di altri esempi, a modellare i parametri del sistema. Quei parametri non contengono il dato originario in forma leggibile, contengono solo una traccia statisticamente distribuita dell’influenza che quel dato ha avuto, mescolata in modo indistinguibile con l’influenza di tutti gli altri dati. Cancellare il testo originario dal dataset di training non modifica retroattivamente il modello già addestrato, esattamente come strappare le pagine di un libro non cancella il ricordo di averlo letto. Studi condotti nel 2021 da Nicholas Carlini hanno mostrato che i modelli linguistici possono memorizzare e talvolta riprodurre frammenti rari o unici presenti nei dati di addestramento, come nomi, indirizzi, numeri di telefono o parti di documenti privati. Questo indica che le informazioni personali non vengono completamente eliminate durante l’addestramento, ma possono rimanere incorporate nel modello in forme che, in determinate condizioni, risultano estraibili3.
Questo avviene con maggiore probabilità per i dati che nel dataset originario apparivano con frequenza elevata o in contesti particolarmente caratterizzati: ad esempio, una notizia di cronaca ripresa da molte testate, un documento pubblicato su più piattaforme, un profilo personale indicizzato in modo analitico.
Il problema giuridico che si pone quando un individuo scopre che un sistema di IA generativa riproduce informazioni che lo riguardano è di doppia natura: da un lato, l’interessato non sa con certezza se quelle informazioni provengano dalla memorizzazione del dato originario o da una ricostruzione inferenziale del modello, dall’altro, non esiste una procedura consolidata per esercitare il diritto di accesso ex articolo 15 GDPR nei confronti di un sistema di IA, perché il titolare del trattamento non è tecnicamente in grado di indicare dove e come il dato sia presente all’interno del modello. Il Garante italiano ha già affrontato una versione preliminare di questo problema nel procedimento nei confronti di OpenAI aperto nel marzo 2023 e conclusosi con il provvedimento n. 755 del 2 novembre 20244, imponendo misure cautelari e avviando un’istruttoria che ha portato a impegni di trasparenza sulle modalità di trattamento, ma senza risolvere il nodo strutturale della verificabilità della cancellazione. La persona che scopre le proprie informazioni in un output generativo si trova quindi in una posizione paradossale, ha diritto alla cancellazione, può formalmente richiederla, ma non può verificare che sia stata eseguita e il titolare del trattamento non può dimostrare di averla effettivamente realizzata.
Il problema è evidente nell’ipotesi di persone condannate e poi riabilitate. A titolo di esempio, una persona condannata per un reato minore negli anni Novanta, il cui nome era comparso in articoli di cronaca locale poi digitalizzati e indicizzati, può trovarsi oggi associata a quella vicenda ogni volta che un sistema di IA generativa viene interrogato sul suo conto, indipendentemente dal fatto che abbia scontato la pena, ottenuto la riabilitazione o comunque costruito nel tempo una vita e un’identità diverse. Il diritto alla cancellazione in questo contesto non rappresenterebbe una pretesa di riscrivere la storia, ma l’esercizio di un diritto al reinserimento sociale che l’Ordinamento ha già riconosciuto nelle sue forme tradizionali e che i sistemi di IA sistematicamente neutralizzano.
Il quadro normativo delineato dalla Legge 132/2025 riconosce questa dimensione critica, imponendo che i sistemi di IA non solo rispettino i principi del GDPR, ma garantiscano una reale spiegabilità delle proprie logiche. Si tratta di un passo in avanti sul piano della trasparenza algoritmica, che però non affronta il nodo specifico della persona riabilitata i cui dati giudiziari siano già incorporati in un modello addestrato prima dell’entrata in vigore della legge: su quel punto il problema tecnico precede e vanifica la norma.
Se possibile, ancora più grave è l’ipotesi per cui può capitare che informazioni false generate dall’IA resistano alla rettifica. Questa ipotesi introduce una dimensione che il diritto all’oblio tradizionalmente non contemplava; infatti, non si tratta più di rimuovere informazioni vere diventate non più pertinenti, ma di correggere informazioni false che il sistema ha generato autonomamente attraverso processi inferenziali poco chiari, le cosiddette “allucinazioni”: affermazioni plausibili nella forma ma false nel contenuto, generate quando il modello non dispone di informazioni sufficienti e costruisce una risposta statisticamente coerente con il contesto senza che questa corrisponda alla realtà. Quando queste allucinazioni riguardano persone fisiche – attribuendo loro dichiarazioni mai fatte, procedimenti giudiziari inesistenti, affiliazioni false, comportamenti mai tenuti – il danno reputazionale può essere grave e la via di rimedio è strutturalmente più difficile rispetto alla diffamazione tradizionale. Nel caso classico della diffamazione a mezzo stampa, l’informazione falsa è localizzabile, attribuibile a un autore, e rettificabile attraverso strumenti consolidati, che sono: la smentita, il diritto di rettifica e il risarcimento del danno. Nel caso dell’allucinazione generativa, l’informazione falsa non è stata scritta da nessuno, è emersa da un processo probabilistico distribuito, non è archiviata in nessun luogo specifico del sistema e può essere riprodotta in forme leggermente diverse ad ogni interrogazione, rendendo impossibile una rettifica puntuale e permanente. Il diritto alla rettifica previsto dall’articolo 16 GDPR presuppone che il dato inesatto sia identificabile e modificabile, cosa che la struttura parametrica del modello non consente. Alcuni operatori hanno risposto introducendo meccanismi di filtraggio degli output – istruzioni al modello di non produrre affermazioni su persone fisiche senza basi verificabili – ma si tratta di soluzioni parziali e non verificabili, perché il comportamento del modello non è deterministico e la stessa interrogazione formulata in modo diverso può produrre output diversi. Il caso più noto a livello europeo riguarda un professore universitario tedesco al quale ChatGPT aveva attribuito un procedimento penale per corruzione mai esistito5: il Garante tedesco ha aperto un’istruttoria, ma la procedura si è scontrata esattamente con questo limite strutturale – non è possibile correggere un parametro del modello, si può solo sperare che il filtraggio degli output intercetti le versioni più lesive dell’allucinazione senza poter garantire che il problema non si ripresenti. Il paradosso del caso è che il professor Höppner, essendo uno dei massimi esperti europei di diritto digitale, è stato la persona “giusta” a cui poteva capitare questo errore per portare la questione davanti alle autorità. Il suo caso ha dimostrato che se persino per un esperto del suo calibro è pressoché impossibile ripulire la propria identità digitale, per un cittadino comune l’indicizzazione capillare errata può trasformarsi in una condanna senza appello.
Questo scenario porta il diritto all’oblio in un territorio che non aveva mai dovuto esplorare: non più il diritto a essere dimenticati, ma il diritto a non essere inventati, con strumenti normativi pensati per il primo problema e del tutto inadeguati rispetto al secondo.
Il “machine unlearning”, ovvero il dis-apprendimento automatico, è la disciplina di ricerca che cerca di rispondere a questa sfida: come rimuovere selettivamente l’influenza di un dato specifico da un modello già addestrato, senza dover ripartire da zero. La promessa è significativa, perché riaddestrare un modello da zero ogni volta che un individuo esercita il proprio diritto alla cancellazione è economicamente e computazionalmente insostenibile, perché, ad esempio, i modelli più grandi richiedono mesi di calcolo su infrastrutture del valore di centinaia di milioni di euro. Le tecniche proposte dalla ricerca tentano di simulare l’effetto della rimozione senza ripetere l’intero processo: alcune applicano al modello una sorta di “correzione inversa” che cerca di annullare l’aggiornamento prodotto dai dati da dimenticare; altre dividono il processo di addestramento in segmenti modulari, in modo che solo il segmento interessato debba essere ripetuto in caso di richiesta di cancellazione; altre ancora intervengono sui parametri del modello con tecniche di ottimizzazione che mirano a rendere il modello indifferente al dato da rimuovere.
In realtà, però, nessuna di queste tecniche fino ad ora offre garanzie verificabili; è, infatti, molto difficile dimostrare che un’informazione sia stata effettivamente rimossa da un sistema che non la archivia in forma esplicita, e i metodi di verifica disponibili – testare se il modello riesce ancora a riprodurre o inferire il dato eliminato – sono per loro natura incompleti, perché non possono escludere che l’informazione sia ancora presente in forme non ancora testate. Il problema dunque non è in linea di principio irrisolvibile, nel senso che la ricerca accademica sta progredendo e standard tecnici minimi potranno essere fissati normativamente per orientarne lo sviluppo verso obiettivi certificabili, ma di fatto è ancora lontano dall’esserci una soluzione pratica, affidabile e giuridicamente certificabile. Finché questa distanza rimane, i sistemi di intelligenza artificiale addestrati su dati personali si trovano in una condizione di strutturale impossibilità di adempimento rispetto agli obblighi di cancellazione previsti dal GDPR, non per malafede degli operatori, ma per un’incompatibilità di fondo tra l’architettura tecnica di questi sistemi e le categorie giuridiche pensate per un mondo in cui i dati erano oggetti discreti, localizzabili e cancellabili.
Nel contesto dell’intelligenza artificiale, l’inadeguatezza del diritto, come si è rilevato, non è astratta, ma si percepisce maggiormente nello scarto tra norma e realtà. La risposta normativa più onesta non è costruire nuove categorie giuridiche che fingano di risolvere un problema tecnico ancora aperto, ma riconoscere esplicitamente questo scarto – come la Legge 132/2025 ha parzialmente fatto – e concentrare lo sforzo regolatorio sul momento in cui il problema è ancora prevenibile e cioè nella fase di progettazione dei sistemi e della selezione dei dati di addestramento, prima che l’informazione personale venga incorporata in un modello dal quale non potrà più essere estratta.
3. Il conflitto normativo
Il diritto all’oblio, così come configurato dall’articolo 17 GDPR, nasce in un ecosistema giuridico disegnato attorno a un presupposto tecnico preciso: il dato personale è un oggetto discreto, localizzabile, archiviato in un sistema che lo conserva in forma esplicita e cancellabile. Su questo presupposto è costruita l’intera architettura dei diritti dell’interessato. Il diritto di accesso ex articolo 15, il diritto alla rettifica ex articolo 16, il diritto alla cancellazione ex articolo 17 presuppongono tutti che il titolare del trattamento sappia dove il dato si trova e che sia in grado di intervenire su di esso. I sistemi di intelligenza artificiale generativa, come si è visto, falsificano questo presupposto alla radice. Come si è visto in precedenza, il dato non è archiviato ma dissolto in una struttura parametrica, non è localizzabile ma diffuso all’interno del modello, non è cancellabile ma solo potenzialmente attenuabile attraverso tecniche ancora sperimentali. Il conflitto tra GDPR e architettura dei modelli linguistici non è quindi un conflitto tra norme diverse, piuttosto è un conflitto tra una norma e la realtà tecnica a cui quella norma pretende di applicarsi.
L’AI Act europeo, entrato in vigore nell’agosto 2024, riconosce la specificità dei sistemi di IA rispetto alla normativa preesistente sulla protezione dei dati, ma non risolve la tensione; si occupa principalmente di classificare i sistemi in base al rischio, di imporre obblighi di trasparenza e di valutazione della conformità, e di definire usi vietati. Non affronta il problema specifico del machine unlearning né introduce criteri tecnici per stabilire quando un obbligo di cancellazione si possa considerare adempiuto in un sistema parametrico. Il risultato è una stratificazione normativa in cui il GDPR impone obblighi che tecnicamente non possono essere soddisfatti, l’AI Act aggiunge obblighi procedurali che presuppongono la risoluzione di un problema tecnico ancora aperto, e le autorità di controllo si trovano a dover applicare entrambi i regimi a sistemi che nessuno dei due era stato pensato per disciplinare in modo adeguato.
Per aggiungere confusione, le risposte regolatorie nazionali hanno proceduto in modo disorganico. Il Garante per la protezione dei dati personali in Italia, con il citato provvedimento nei confronti di OpenAI, ha dimostrato una capacità di intervento cautelativo rapido, imponendo la sospensione temporanea del servizio e avviando un’istruttoria che ha condotto a impegni di maggiore trasparenza; ma il procedimento si è fermato esattamente dove il problema diventa strutturale, senza affrontare la questione della verificabilità tecnica della cancellazione6.
L’autorità francese CNIL7 e il Garante europeo hanno pubblicato linee guida sull’uso dei dati personali nell’addestramento dei modelli, individuando nell’anonimizzazione e nella pseudonimizzazione possibili strumenti di mitigazione, ma riconoscendo esplicitamente che nessuna delle tecniche disponibili offre garanzie di cancellabilità equiparabili a quelle richieste dall’articolo 17.
La Legge 132/2025, nel contesto italiano, ha cercato di colmare in parte questo vuoto imponendo obblighi di spiegabilità alle decisioni automatizzate e rafforzando i poteri istruttori del Garante nei confronti dei sistemi di IA, che è già un passo in avanti sul piano della trasparenza procedurale. Tuttavia non risolve il nodo della verificabilità dell’adempimento per i modelli già addestrati, né fornisce strumenti operativi per affrontare il caso specifico della persona riabilitata i cui dati giudiziari siano stati incorporati in un modello prima dell’entrata in vigore della legge: su quel punto il problema tecnico precede e vanifica la norma.
Un ulteriore livello di complessità è introdotto dal problema della giurisdizione. I modelli linguistici più diffusi sono addestrati negli Stati Uniti, distribuiti globalmente attraverso API accessibili da qualsiasi territorio, e i dati personali che incorporano provengono da fonti sparse in decine di giurisdizioni diverse. Quando un cittadino europeo chiede la cancellazione dei propri dati a un operatore con sede negli Stati Uniti, la competenza del Garante è formalmente fondata sul criterio dell’offerta di servizi nel territorio dell’Unione, come stabilito dall’articolo 3 GDPR, ma l’esecuzione materiale di quella cancellazione dipende interamente dalla cooperazione volontaria di un soggetto che non risiede in nessuno Stato membro e che può opporre l’impossibilità tecnica come esimente senza che esista un meccanismo cogente per verificare se tale impossibilità sia assoluta o frutto di scelte progettuali evitabili. Il Framework transatlantico per la protezione dei dati personali, il Data Privacy Framework adottato nel 20238, regola il trasferimento dei dati ma non affronta il problema dell’esercizio dei diritti degli interessati nei confronti di sistemi che hanno già incorporato quei dati nel processo di addestramento.
Il sedimentarsi di lacune normative e asimmetrie tecnologiche determina una paralisi dell’effettività, non perché il diritto all’oblio sia privo di fondamento giuridico ma perché gli strumenti esecutivi attraverso cui quel diritto dovrebbe tradursi in tutela concreta non sono in grado di raggiungere la struttura tecnica su cui il danno si produce.
È questa distanza tra norma valida e norma effettiva, tra il diritto riconosciuto sulla carta e il diritto esercitabile nella realtà, che le proposte esaminate nel prossimo paragrafo cercano di colmare.
4. Verso un diritto all’oblio algoritmico: proposte, responsabilità e nuovi equilibri
Il percorso fin qui tracciato – dalle radici giuridiche del diritto all’oblio fino ai casi concreti in cui quel diritto si rivela inapplicabile – converge verso una domanda: cosa dovrebbe fare il diritto per adeguarsi a una realtà tecnologica che ha già superato le categorie con cui era stato costruito? La risposta ovviamente non può essere né il rimpianto per un sistema normativo che funzionava né l’accettazione rassegnata dell’inadeguatezza attuale, ma richiede proposte concrete, un ripensamento del ruolo delle istituzioni di controllo, e il riconoscimento che nessuna norma può funzionare senza una cultura giuridica diffusa che la sostenga.
La lacuna più urgente da colmare è la definizione tecnica vincolante di cosa significhi adempiere all’obbligo di cancellazione quando il dato è incorporato in un modello parametrico. Senza un criterio condiviso per stabilire se l’adempimento sia stato effettivo, il diritto all’oblio applicato ai sistemi di IA rimane una norma priva di fattispecie concreta.
La circostanza che nessuna tecnica di machine unlearning offra oggi garanzie verificabili non rende la proposta di standardizzarle priva di senso: al contrario, fissare in anticipo i requisiti minimi che una tecnica dovrà soddisfare per essere considerata giuridicamente adeguata orienta la ricerca verso obiettivi certificabili e impedisce che soluzioni insufficienti vengano presentate come adempimento. Sebbene si sia in precedenza rilevato che una soluzione pratica e verificabile è ancora lontana, lo standard normativo non certifica che il problema sia risolto ma fissa le condizioni che la soluzione dovrà soddisfare per essere giuridicamente rilevante. In pratica è lo stesso meccanismo con cui le norme sulle emissioni hanno preceduto e indirizzato le soluzioni tecniche nell’industria automobilistica.
La strada più promettente passa per provvedimenti delegati dell’AI Act che deleghino la Commissione UE affinché ponga in essere quei provvedimenti attuativi che rendano efficaci i principi enunciati in termini generali; oppure linee guida vincolanti dell’EDPB9 che stabiliscano standard tecnici minimi per un machine unlearning verificabile, soglie di accettabilità per valutare se una tecnica di dis-apprendimento sia sufficientemente efficace, e protocolli di certificazione indipendente che permettano all’interessato – e all’autorità di controllo – di verificare l’adempimento senza dover accedere alla struttura interna del modello.
Se l’intervento a valle, e cioè la cancellazione successiva attraverso il machine unlearning, rimane strutturalmente problematico per le ragioni tecniche già illustrate, l’intervento a monte rappresenta il punto in cui il diritto può ancora operare con strumenti proporzionati al problema. La data minimisation by design non è una proposta alternativa all’unlearning ma prioritaria rispetto ad esso, perché agisce prima che il dato venga incorporato in una struttura da cui non potrà più essere estratto in modo affidabile. Le due strade sono quindi complementari: la minimizzazione a monte riduce lo spazio del problema che l’unlearning dovrà affrontare a valle. Sarebbe, dunque, auspicabile un obbligo esplicito di data minimisation by design10 applicato specificamente alla fase di addestramento per cui i titolari che intendano addestrare modelli su dati che includono informazioni personali dovrebbero essere tenuti a dimostrare ex ante la necessità di quel dato specifico rispetto alla finalità del modello, invertendo l’onere della prova rispetto alla prassi attuale in cui i dati vengono raccolti in blocco e la loro necessità viene valutata solo se contestata.
Una proposta più radicale è quella di introdurre un regime di licenza obbligatoria per l’utilizzo di dati personali nell’addestramento di modelli di IA destinati all’uso pubblico: chiunque voglia addestrare un modello su dati che includano informazioni riferibili a persone fisiche dovrebbe ottenere un’autorizzazione preventiva dall’autorità di controllo, documentare le categorie di dati utilizzati e le misure adottate per garantire la cancellabilità futura, e sottoporsi a verifiche periodiche. Questa licenza non riguarderebbe la selezione manuale di ogni dato, ma solo la certificazione della qualità e della provenienza dei dataset. Si tratta di un approccio che comporta costi regolatori significativi e rischi di concentrazione del mercato a favore degli operatori più grandi, ma che ha il vantaggio di spostare il punto di intervento dove il problema è ancora prevenibile, prima che il dato venga dissolto in una struttura da cui non potrà essere estratto.
Il sistema di responsabilità attuale – fondato sulla figura del titolare del trattamento come soggetto che decide finalità e mezzi del trattamento e risponde delle violazioni – mostra la sua inadeguatezza di fronte alla catena di soggetti che intervengono nella produzione e nel “rilascio” di un sistema di IA generativa, e cioè il soggetto che raccoglie i dati di addestramento, quello che addestra il modello, quello che lo distribuisce tramite API, quello che lo integra in un prodotto destinato all’utente finale. Ognuno di questi passaggi può comportare un trattamento di dati personali, ma la responsabilità tende a concentrarsi formalmente sul soggetto a valle – l’operatore che gestisce l’interfaccia con l’utente – lasciando di fatto esente il soggetto a monte che ha prodotto il modello e che è l’unico in grado di intervenire sulla struttura parametrica. Una risposta efficace richiederebbe l’introduzione di una responsabilità solidale lungo l’intera catena di produzione del modello, con obblighi specifici per ciascun livello; chi addestra il modello risponde della liceità dei dati utilizzati e dell’implementazione di meccanismi di unlearning; chi lo distribuisce risponde della trasparenza sulle capacità e sui limiti del sistema; chi lo integra risponde dell’adeguatezza del contesto di impiego rispetto alle caratteristiche del modello.
Questo schema è già parzialmente presente nell’AI Act11 per i sistemi ad alto rischio, specificamente negli articoli 9–17, ma non è esteso in modo sistematico alla dimensione della protezione dei dati personali e non affronta specificamente il problema del diritto alla cancellazione. La proposta di responsabilità solidale non è quindi una novità assoluta, ma un’estensione del perimetro soggettivo e materiale di uno schema già riconosciuto dal Legislatore europeo. Le piattaforme, in questo quadro, non possono più limitarsi a essere neutrali, in quanto devono diventare soggetti attivamente responsabili della progettazione di sistemi che rendano esercitabili i diritti degli interessati, con obblighi di rendicontazione periodica alle autorità di controllo sullo stato di implementazione delle tecniche di machine unlearning e sui risultati delle verifiche effettuate.
Le autorità di protezione dei dati si trovano oggi in una posizione di asimmetria informativa e tecnica rispetto ai soggetti che dovrebbero controllare, i modelli di IA più avanzati sono sistemi di complessità tale da richiedere competenze specialistiche che le autorità di controllo non sempre possiedono internamente e le verifiche ispettive tradizionali – basate sull’accesso ai registri del trattamento e sulla verifica documentale delle misure adottate – sono strumenti progettati per archivi strutturati e non per sistemi parametrici. Malgrado ciò, il Garante italiano, l’autorità francese CNIL e il Garante europeo dei dati personali hanno già dimostrato una capacità di intervento significativa nei confronti dei sistemi di IA generativa ma queste iniziative hanno prodotto principalmente obblighi di trasparenza e impegni formali, senza affrontare il nodo della verificabilità tecnica dell’adempimento. Una risposta istituzionale adeguata richiederebbe che le autorità di controllo sviluppassero capacità tecniche interne di auditing dei modelli o che si dotassero di strutture di consulenza tecnica indipendente in grado di effettuare verifiche sostanziali sull’effettiva implementazione delle misure dichiarate.
Il ruolo del giudice, parallelamente, è chiamato a un’evoluzione interpretativa significativa, infatti, applicare l’articolo 17 GDPR, che sancisce il diritto all’oblio, a un sistema parametrico richiede che il giudice sviluppi criteri di valutazione dell’adempimento che non esistono in giurisprudenza, distinguendo tra impossibilità tecnica assoluta e impossibilità tecnica derivante da scelte progettuali evitabili che integrerebbe una responsabilità per il titolare. La Corte di Giustizia dell’UE sarà probabilmente chiamata nei prossimi anni a pronunciarsi su questi temi e le sue decisioni costituiranno il banco di prova definitivo della tenuta del sistema normativo europeo di fronte alla specificità tecnica dell’IA generativa.
Nessuna architettura normativa, per quanto sofisticata, può però funzionare in assenza di una cultura giuridica e digitale diffusa che ne sostenga l’applicazione. Il diritto all’oblio è un diritto che richiede consapevolezza per essere esercitato, l’interessato deve sapere che esiste, deve capire quando si realizzano le condizioni per invocarlo, deve essere in grado di formulare una richiesta adeguata e di valutare la risposta ricevuta. In un contesto in cui i sistemi di IA generativa sono già accessibili a decine di milioni di persone, l’assenza di un’efficace educazione digitale trasforma la differenza tra diritti formalmente riconosciuti e diritti sostanzialmente esercitabili in un divario di classe; per cui chi dispone di competenze giuridiche e tecniche può utilizzare il sistema e se necessario far valere le proprie pretese, chi invece non ne dispone è costretto a subire il sistema senza conoscere o poter utilizzare gli strumenti previsti a sua tutela dalla normativa.
L’educazione digitale in questo senso è una condizione della effettività delle norme. Un sistema che riconosce il diritto all’oblio senza investire nella diffusione della consapevolezza necessaria per esercitarlo produce un diritto formale che tutela solo chi già ha gli strumenti per tutelarsi, accentuando le disuguaglianze invece di ridurle. Questo implica un impegno che va oltre la scuola e la formazione professionale e riguarda la progettazione stessa delle interfacce con cui gli utenti interagiscono con i sistemi di IA, che dovrebbero essere costruite per rendere visibili i diritti dell’interessato e accessibili le procedure per esercitarli, traducendo in termini comprensibili obblighi di trasparenza che oggi si esauriscono in informative legali illeggibili.
5. Conclusioni.
Ricondurre il diritto all’oblio nell’era dell’intelligenza artificiale a una questione tecnica – un problema di ingegneria da risolvere con algoritmi migliori – è un errore categoriale prima ancora che giuridico. La posta in gioco non è la perfezionabilità del machine unlearning ma è la capacità dell’Ordinamento giuridico di garantire che il potere tecnologico non si sottragga al controllo democratico e non eroda diritti che le società europee hanno faticosamente costruito nel corso di decenni. Il diritto all’oblio è storicamente uno tra i più vulnerabili. Chi ha sbagliato e vuole ricominciare, chi è stato travolto da una vicenda pubblica senza averla cercata, chi è stato definito da un momento della propria vita che non lo rappresenta più, sono tutti esempi di quanto sia importante tale diritto. Questi soggetti diventano vittime della memoria digitale permanente, amplificata da sistemi che non dimenticano, non contestualizzano e non distinguono tra passato e presente. Ciò li espone a una forma di controllo sociale permanente che non richiede nessuna autorità che la eserciti deliberatamente, è semplicemente il risultato automatico di un’architettura tecnologica che nessuno ha progettato con intento punitivo, ma che produce effetti punitivi con precisione sistematica. La sfida che il diritto all’oblio algoritmico pone non è quindi solo tecnica né solo normativa, è una sfida di concezione del rapporto tra memoria, identità e potere. Una società che affida la propria memoria collettiva a sistemi che non possono dimenticare deve decidere consapevolmente se accetta le conseguenze di quella scelta – la cristallizzazione delle identità, la permanenza degli errori, l’impossibilità del reinserimento – oppure se intende costruire una risposta normativa, tecnica e culturale che restituisca agli individui il controllo sulla propria narrazione. Questa decisione non può essere delegata agli ingegneri che progettano i modelli né agli avvocati che ne interpretano le implicazioni, è una decisione politica nel senso più alto del termine, che riguarda il tipo di società che vogliamo essere e il tipo di memoria che siamo disposti a tollerare.
1 V. Mayer-Schönberger, Delete. Il diritto all’oblio nell’era digitale, Egea, Milano, 2016.
2E. Goffman, la vita quotidiana come rappresentazione, Il Mulino, Bologna, 1997 (prima edizione in lingua originale del 1959).
3N. Carlini et al., Extracting Training Data from Large Language Models, 2021. consultabile su: https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.usenix.org/system/files/sec21-carlini-extracting.pdf
4Peraltro il provvedimento del Garante è stato annullato dalla sentenza del Tribunale di Roma n. 4153/2026, pubbl. il 18/03/2026 e di cui si attendono le motivazioni e l’eventuale appello del Garante.
5Nel 2023, interrogando ChatGPT sul conto del professor Höppner, il chatbot ha generato una risposta estremamente dettagliata in cui affermava che il docente era stato coinvolto in uno scandalo di corruzione e sottoposto a indagini penali, fabbricando dettagli specifici e citando falsamente testate giornalistiche.
6Ciò anche considerando l’annullamento dello stesso da parte del Tribunale di Roma (vedasi nota 4).
7l’autorità amministrativa indipendente francese incaricata di garantire la protezione dei dati personali e il rispetto della privacy. In sostanza, è l’equivalente francese del nostro Garante per la Protezione dei Dati Personali.
8Il EU-U.S. Data Privacy Framework (DPF), adottato il 10 luglio 2023, è la decisione di adeguatezza con cui la Commissione Europea ha stabilito che gli Stati Uniti garantiscono un livello di protezione dei dati personali sostanzialmente equivalente a quello dell’Unione Europea (GDPR).
9L’European Data Protection Board è l’organo che coordina le autorità nazionali di protezione dei dati (i vari Garanti). Può adottare due tipi di atti: linee guida non vincolanti e, nei casi previsti dall’articolo 65 GDPR, decisioni vincolanti che si impongono alle autorità nazionali nelle materie transfrontaliere.
10Data minimisation è un principio dell’art. 5 del GDPR per cui si possono trattare solo i dati adeguati, pertinenti e limitati a quanto necessario rispetto alla finalità. Si raccolgono solo i dati che servono per fare una determinata cosa specifica. By design, invece, viene dall’art. 25 GDPR (privacy by design): le misure di protezione dei dati non si aggiungono a posteriori come patch, ma vengono incorporate nella progettazione del sistema fin dall’inizio, prima ancora che il sistema esista. Quindi se il dato personale non entra nel dataset di addestramento, non ci sarà nulla da cancellare dopo.
11Capo III, Sezione 2 del Regolamento (UE) 2024/1689.
