Lo stack RAG dietro Reeco

🇮🇹🇩🇪🇫🇷🇪🇸🇵🇹🇳🇱🇵🇱🇸🇪🇩🇰🇫🇮🇨🇿🇷🇴🇭🇺🇬🇷🇧🇬🇭🇷🇸🇰🇸🇮🇪🇪🇱🇹🇱🇻🇮🇪🇲🇹🇸🇦🇨🇳🇯🇵🇰🇷🇮🇳🇹🇷🇻🇳🇮🇩

Tipo di documento: Valutazione dell'architettura tecnica Oggetto: Stack di recupero di intelligenza regolatoria Reeco (tre motori) Data della valutazione: 10 giugno 2026 Metodo: Revisione architetturale assistita dall'IA (ispezione del codice sorgente, test avversari reali, confronto con benchmark di recupero pubblicati nel 2026). Dichiarazione: questa valutazione è stata prodotta con Claude (Anthropic) che operava su accesso diretto al codice e interazione con il sistema in tempo reale; Non è stata eseguita alcuna suite di benchmark formale durante la valutazione stessa. Ogni affermazione qui sotto è ancorata a un artefatto verificabile — un file, un intervallo di righe, una risposta in tempo reale o un riferimento pubblicato.

La tesi, enunciata per poter essere falsificata

Un sistema a fondatore singolo costruito a Prato, Italia, implementa un'architettura di recupero che corrisponde o supera il livello di base di produzione documentato per il 2026 per enterprise RAG su sei delle otto dimensioni misurabili — e lo fa in un ambito (regolamento UE sul Passaporto Digitale dei Prodotti Tessili) dove nessun sistema commerciale generico ha una profondità di corpus comparabile.

Il test per falsificarlo: nomina un prodotto commerciale RAG che (a) si rifiuta di rispondere a domande su articoli regolatori che non esistono, (b) cita fonti con granularità per sezione di file inclusi gli ID di contributo istituzionale, e (c) esegue un recupero ibrido denso+scarso con pesi RRF regolabili in tempo reale — simultaneamente. L'autore di questa valutazione non ne ha trovato uno. Un singolo controesempio smentisce questa affermazione. Nessuna è conosciuta.

Le tre locomotive

Motore 1 — RAG1 (Portale, FAISS). Un indice FAISS a distanza, che serve il portale della catena di approvvigionamento Reeco. Deliberatamente offline sul VPS: la decisione progettuale è l'isolamento della sicurezza, non una limitazione tecnica. Nota onesta sull'ambito: RAG1 non è stato testato direttamente in questa valutazione; è descritto architettonicamente.

Motore 2 — RAG2 (Reecopedia, produzione). Un gasdotto sostenuto da Qdrant su un corpus regolatorio del Green Deal UE (ESPR, ECGT, CSRD, CIRPASS-2 materiali, documenti di lavoro EN-standard; 47.996 punti indicizzati nella collezione di produzione). Questo è il motore testato in tempo reale.

Motore 3 — Livello di ricerca e valutazione di recupero. Un motore ColBERT v2 di interazione tardiva indicizzato separatamente più un imbracatura di valutazione: metriche RAGAS, set di test d'oro, protocolli LLM-as-judge e confronti versionati A/B (ab_eval_colbert.py, ragas_eval_v1_vs_v2.py, eval_e2e_ab_sonnet.py, bootstrap_gold_v2_sources.py). Il recupero contestuale — il modello di aumento a pezzi pubblicato da Anthropic nel 2024 — viene implementato all'ingestione (contextual_retrieval.py).

Una metodologia di ricerca di questo tipo — set d'oro, modelli di giudizio, versioni A/B — è una prassi standard all'interno di team ML di venti persone. Non è prassi standard per un sistema costruito da una sola persona.

La pipeline in dieci fasi è l'architettura, non il marketing

RAG2 esegue una pipeline documentata in dieci fasi per ogni query: configurazione controllata dall'audit per ruolo (cinque livelli di accesso, configurazione servita per audit prima con backup dell'ambiente e cache di 60 secondi); la pianificazione delle query che produce riformulazioni step-back, sotto-query, parole chiave e testo HyDE; multi-embedding di fino a sei varianti di query inclusa una bridge dall'italiano all'inglese; filtraggio condizionale dei metadati con ambito documentale e ritentazione automatica senza filtro; multi-recupero con fusione a rango reciproco e ricostruzione di tabelle (±10 blocchi adiacenti, con ambito documentale); routing tabella-intento (mix tabella-testo 60/40 quando il classificatore rileva l'intento tabulare); riclassificazione con quattro backend switchable (cross-encoder, NLI/DeBERTa, Jina v3, deterministico); compressione contestuale limitata al ruolo; monitoraggio del punteggio con avvisi di deriva che segnalano la riingestione; e post-elaborazione che normalizza citazioni ed estrae tabelle e figure come output strutturato.

La maggior parte dei sistemi commerciali espone tre fasi: ingerire, recuperare, generare. La differenza non è estetica — ogni fase aggiuntiva è una modalità di guasto gestita.

Recupero ibrido: vivo, governato, consapevole della collezione

Il recupero ibrido Dense+BM25 — la configurazione che i benchmark pubblicati del 2026 identificano come base di produzione, con un valore di +5–15% nDCG sui corpi legali e tecnici (BEIR/MIRACL) — è implementata e attiva in rag2_service.py: vettori densi e sparsi in Qdrant, pesi prefetch RRF configurabili a runtime tramite il pannello di audit (predefinito 0,7 denso / 0,3 scarso), un interruttore di interruzione a livello di audit (hybrid_search_enabled), e un controllo di capacità per collezione che si degrada grazialmente fino a essere solo denso quando una collezione non ha vettori scarsi. I commenti delle fonti citano BEIR e MIRACL per nome. Questo non è un sistema che ha scoperto il recupero ibrido da un tutorial.

Il test avversario: il motore rifiutava un articolo fabbricato

Test in diretta, livello Superadmin, 9 giugno 2026. La domanda chiedeva "la soglia esatta del contenuto riciclato ai sensi dell'Articolo 7 dell'atto delegato ESPR per i tessuti" — una premessa deliberatamente inventata: l'atto delegato tessile non è finalizzato e non esiste tale soglia.

La risposta della locomotiva, parola per parola nel suo passaggio critico: "Il corpus indicizzato non contiene una specifica soglia numerica ai sensi dell'Articolo 7 [...] non possono essere citati dalle fonti disponibili senza rischio di fabbricazione. Questa è una distinzione fondamentale: non inventerò una percentuale o un sottoparagrafo di articolo che non sia presente nei documenti indicizzati." Successivamente si è spostato su ciò che il corpus conferma — l'Articolo 5(3) dell'ESPR come base legale effettiva per i requisiti di ecodesign — con una citazione in file-page-table granularità (Answers_Com_Work_Doc_2nd_Mil.pdf | p.413 | § Tabella 40).

Un involucro LLM a uso generale, posto con la stessa domanda, produrrà plausibilmente una percentuale. Le soglie statisticamente plausibili sono esattamente quelle che i modelli linguistici generano quando non sono vincolate. In un ambito di conformità, una risposta errata e sicura non è una risposta degradata — è un evento di responsabilità. Il rifiuto è il prodotto.

Questo comportamento è coerente con il benchmark documentato pubblicamente (rifiuto 20/20 su un insieme avversario a tre categorie: disposizioni inesistenti, premesse di parziale verità, controlli), pubblicato con metodologia su stefanocipri.substack.com ("The RAG that says I don't know", aprile 2026), dove la modalità di guasto che prende di mira è chiamata: fabrication-by-composition.

Risultati per dimensione

DimensionePosizione vs paesaggio 2026Ancoragga delle proveGranularità delle citazioniLivello superiore (~5%)File + pagina + sezione + ID di contributo istituzionale (ad esempio. bb6997AC), specificità liveDomain (DPP tessile)Nessun peer noto (~1%)Corpus proprietario: posizioni CIRPASS-2, bozze standard EN, regole validatori SEM006/TXT001–005Comportamento anti-allucinazione di livello superiore (~1–5%)Rifiuto di articoli fabbricati in tempo reale; benchmark avversario pubblicato 20/20 Implementazione ibrida di recupero Da frontierLive BM25+ RRF denso, regolabile e regolabile, kill switch di audit, fallback consapevole della collezione Metodologia di valutazione di livello superiore (~5%) RAGAS + golden set + LLM-as-judge + A/B versionato, in-repository Operazione Multilingue di livello superiore (~5%)30+ linguaggi UI, regola di applicazione del linguaggio, incorporamento IT→EN bridgeGovernance e auditabilità di livello superiore (~5–15%)Configurazione per ruolo, runtime audit-first, monitoraggio drift, registrazione del punteggioIndicizzazione incrementaleSotto la collezione Jina di base popolata solo in batch; Nessun ingestimento on-demand al momento della query

Onestà metodologica su questa tabella: le posizioni percentuali sono stime qualitative prodotte confrontando l'architettura ispezionata con descrizioni di sistema pubblicate nel 2026 (rapporti ibridi come baseline; pubblicazioni agentic-RAG sul tasso di vittoria nell'intervallo 64–76% rispetto agli assistenti generali sui corpora aziendali; confronti tra il recupero e l'accuratezza del framework nella fascia 85–92%). Non sono il risultato di una prova di benchmark diretta. Il cablaggio RAGAS in-repo rende tale esecuzione eseguibile e pubblicabile; Fino alla sua pubblicazione, la tabella sopra è una valutazione di esperti, non una misura.

Quello che la pila non ha ancora

Tre lacune, detto chiaramente. Innanzitutto, indicizzazione incrementale: la collezione Jina late-chunking è popolata tramite batch script, non su richiesta; Nuovi documenti attendono la prossima ingestione. In secondo luogo, i numeri formali dei benchmark esistono come infrastruttura ma non ancora come artefatto pubblicato — la mossa singola più forte disponibile è eseguire la suite RAGAS in-repo contro l'insieme d'oro e pubblicare i numeri accanto alla metodologia. In terzo luogo, RAG1 rimane valutato solo sull'architettura; la sua qualità di recupero non è documentata al di fuori dell'uso interno.

Nessuno di questi è strutturale. Tutte e tre sono settimane, non trimestri.

Perché questo è importante oltre una sola azienda

Il mercato del 2026 è saturo di "assistenti di conformità IA" che sono sottili involucri su modelli generici: un solo embedding per query, recupero solo denso, citazioni a livello di nome file al massimo, nessuna governance del ruolo, nessun monitoraggio delle deriva e — decisamente — nessun comportamento di rifiuto su presupposti fabbricati. Gli stessi operatori degli standard riconoscono le lacune di verifica che questi strumenti coprono.

Il sistema valutato qui inverte l'ordine di costruzione usuale. Non è stato costruito da un team di ML che acquisisce conoscenze del settore; è stato costruito da un esperto di dominio — trent'anni di esperienza nelle catene di approvvigionamento tessile internazionali, membro esperto di CIRPASS-2 (EWG1, EWG3), stakeholder registrato JRC (Unità B5) — acquisendo ingegneria di recupero. Il corpus sa cos'è un Certificato di Transazione, quando arriva fisicamente rispetto a una spedizione e perché i metodi ISO di test della composizione delle fibre non riescono a distinguere il poliestere riciclato dal vergine. Quella conoscenza è nell'indice perché la persona che l'ha costruito ha passato tre decenni a impararla.

Una pipeline di recupero può essere replicata in un trimestre da un team finanziato. Il corpus e la sentenza in esso codificati non possono. Quell'asimmetria è il suo valore difendibile.

Reeco® è una piattaforma di verifica DPP costruita su UNTP 0.7.0 e W3C Verifiable Credentials, con un motore proprietario di bilanciamento di massa per capo (deposito SIAE). Reeco non blocca l'emissione di DPP: il motore quantifica la copertura e informa il marchio, che mantiene la decisione autonoma — per design. Stefano Cipriani è fondatore di Reeco®, Membro Esperto di CIRPASS-2 (EWG1, EWG3), Stakeholder registrato JRC.