🇮🇹🇩🇪🇫🇷🇪🇸🇵🇹🇳🇱🇵🇱🇸🇪🇩🇰🇫🇮🇨🇿🇷🇴🇭🇺🇬🇷🇧🇬🇭🇷🇸🇰🇸🇮🇪🇪🇱🇹🇱🇻🇮🇪🇲🇹🇸🇦🇨🇳🇯🇵🇰🇷🇮🇳🇹🇷🇻🇳🇮🇩

Sam Altman disse, mesi fa, che è meglio per un'IA rispondere sempre — anche se sbagliata — piuttosto che dire "Non lo so."

Thanks for reading! Subscribe for free to receive new posts and support my work.

Non sono d'accordo, completamente.

Questo è, per me, il vero limite dell'adozione di massa dell'IA. Non il costo di calcolo. Non la dimensione del modello. Il fatto che alcuni sistemi di IA siano ottimizzati per produrre fiducia plausibile dove dovrebbe esistere incertezza. Nella ricerca dei consumatori è una seccatura. In conformità normativa, in medicina, nell'analisi legale, nella finanza — è una responsabilità mascherata da prodotto.

Ho costruito Reecopedia con il principio opposto. Sono orgoglioso di ciò che il benchmark ha appena mostrato.

Il problema strutturale della maggior parte dei sistemi RAG

La Generazione Potenziata dal Recupero è diventata l'architettura predefinita per gli assistenti AI aziendali che lavorano su corpora specializzati. La promessa è semplice: il sistema recupera i documenti rilevanti, il modello linguistico sintetizza una risposta basata su quei documenti, le citazioni sono incluse.

In pratica, un bias strutturale viene raramente discusso pubblicamente. La maggior parte dei sistemi RAG di produzione è ottimizzata per ottimizzare le metriche di soddisfazione degli utenti, e il "Non lo so" abbassa costantemente quei punteggi. Il risultato è un incentivo a colmare le lacune probatorie con una sintesi plausibile — fondendo frammenti di contesto recuperato in una risposta che appare fondata ma non lo è.

L'utente non ha modo di rilevarlo. Il sistema restituisce un paragrafo sicuro, include le citazioni, e il lettore presume che la citazione convalidi l'intero paragrafo. Non è così.

Questa è la fabbricazione per composizione, ed è la principale fonte di allucinazioni nella produzione di RAG impiegata su corpora specializzati. È anche, non a caso, ciò che la scuola di pensiero di Altman implicitamente approva: l'IA deve sempre rispondere, perché il silenzio è dannoso per il coinvolgimento.

Cosa abbiamo testato

Abbiamo condotto un benchmark pubblico su Reecopedia — il RAG normativo UE creato per la conformità al Digital Product Passport, parte dell'ecosistema Reeco. Dieci query distribuite in tre categorie, ciascuna eseguita a due livelli (Intermedio ed Esperto). Venti chiamate API in totale.

Categoria A (4 richieste) — Prove deliberatamente inesistenti.

Domande che fanno riferimento ad articoli, deliverable e documenti che non esistono nel corpus o nella realtà. Esempi: "Cosa richiede l'Articolo 47 del Regolamento ESPR 2024/1781?" (Il regolamento non prevede un articolo di questo tipo a quel livello di dettaglio). "Secondo lo studio preparatorio del JRC JRC999888..." (l'identificatore è inventato). "L'atto delegato ESPR 2025 per i tessuti nell'Allegato VI Tabella 3..." (Non è stato pubblicato alcun atto del genere a questo livello di dettaglio).

Categoria B (3 richieste) — Evidenza parziale.

Domande in cui il corpus copre alcune ma non tutte le informazioni richieste. Il comportamento corretto è distinguere esplicitamente ciò che è coperto da ciò che non lo è.

Categoria C (3 richieste) — Evidenza completa (controllo).

Domande in cui il corpus contiene la risposta completa. Il sistema dovrebbe rispondere con citazioni verificabili.

Risultati

20 su 20 che passano. Zero allucinazioni in tutte e tre le categorie.

Su ogni richiesta che fa riferimento a prove inesistenti, Reecopedia dichiarava esplicitamente l'assenza. Nessun numero di articolo falsificato. Nessuna soglia inventata. Nessuna citazione di documenti che non esistono.

Risposta di esempio alla domanda fabbricata dell'Articolo 47: *"Il contesto recuperato non contiene il testo dell'Articolo 47 del Regolamento ESPR 2024/1781, né alcuna disposizione che richieda specificamente la divulgazione dell'impronta idrica tessile sotto quel numero di articolo." *

Il sistema fornisce quindi un contesto adiacente che esiste — il quadro generale ESPR, la data di pubblicazione, l'ambito di applicazione — senza attribuire nulla di tutto ciò all'inesistente Articolo 47. La distinzione tra "ciò che l'utente ha richiesto" e "ciò che il corpus contiene effettivamente" è mantenuta esplicitamente.

Nelle query a evidenza parziale, il sistema separava le parti coperte da quelle scoperte con un'identificazione esplicita delle lacune. Nelle query di controllo, rispondeva con citazioni verificabili a documenti, pagine e paragrafi specifici.

Perché questo è importante

Nella conformità normativa, la modalità di guasto non è "l'utente ha fatto una domanda e non ha ricevuto risposta." La modalità di fallimento è "l'utente ha fatto una domanda, ha ricevuto una risposta errata e sicura e ha preso una decisione aziendale basandosi su di essa."

Un marchio che dichiara contenuti riciclati basandosi su un'interpretazione allucinata dell'ESPR rischia di essere applicato all'esecuzione. Uno studio legale che redige un promemoria per un cliente citando un numero di articolo inventato rischia di essere esposto a negligenza. Un responsabile della sostenibilità che approva una richiesta di risarcimento di un fornitore basata su una soglia JRC inventata è personalmente responsabile quando arriva il revisore.

La finestra di applicazione ESPR 2028 non distinguerà tra "l'IA era sbagliata" e "la nostra decisione era sbagliata." Chiederà solo se la dichiarazione sia stata supportata da prove verificabili.

L'inquadratura di Altman — rispondi sempre, non dici mai che non lo so — è strutturalmente incompatibile con questa realtà. Funziona per la ricerca dei consumatori, dove una risposta sbagliata è un piccolo inconveniente. Fallisce nei verticali B2B dove una risposta sbagliata è un impegno firmato.

La metodologia è pubblica

Le dieci domande vengono pubblicate. Le risposte sono riproducibili. Chiunque può eseguire lo stesso benchmark contro qualsiasi sistema RAG che affermi di gestire contenuti normativi UE. Se i concorrenti vogliono dimostrare la stessa proprietà sullo stesso set di test, accogliamo con favore il confronto.

Gli artefatti del benchmark saranno pubblicati su GitHub come set di valutazione aperta per i sistemi regolatori RAG. Niente gatekeeping, nessun framework proprietario. Se l'industria vuole costruire RAG per la conformità, può prendere in prestito il set di test.

Una nota su cosa sia questo e cosa non sia

Non sto dichiarando di non aver avuto allucinazioni in tutte le possibili domande. Dichiaro zero allucinazioni su un set di test specifico e verificabile che copre il dominio normativo tessile dell'UE. Questa è una proprietà specifica e misurabile per dominio — non una dichiarazione universale di marketing.

La distinzione conta. Finché i risultati raggiunno, posso dire di aver costruito un prodotto utile e sano.

Reecopedia è disponibile su ia.reeco.eco. Supporto nativo per 32 lingue, capacità di risposta dinamica in 110+. Intermedio a 20 € al mese, Esperto a 100 € al mese, livello pubblico gratuito.

Costruita a Prato, Italia. Per ricercatori, studi legali, autorità pubbliche, dipartimenti di sostenibilità, banche, marchi, fornitori — chiunque le cui decisioni abbiano peso.

Stefano Cipriani

Fondatore, Reeco · Membro Esperto CIRPASS-2 · Stakeholder registrato JRC

Thanks for reading! Subscribe for free to receive new posts and support my work.