Vai al contenuto
RAG agentivo sovrano — ciclo di ragionamento documentale on-premise Lexiane

RAG Agentivo | Ragionamento Documentale Sovrano | Lexiane

RAG agentivo on-premise con ciclo di ragionamento iterativo. Analisi corpus complessi, incrocio multi-fonte, audit SHA-256, controllo umano integrato.

Un RAG classico risponde. Un RAG agentivo ragiona prima di rispondere — e sa riconoscere quando deve cercare ulteriormente prima di pronunciarsi.

Questa distinzione, apparentemente semplice, cambia fondamentalmente ciò che un sistema documentale può realizzare. Sposta il confine tra le domande a cui un’IA può rispondere in modo affidabile e quelle che le sfuggono strutturalmente. E pone questioni di architettura — sul controllo, la tracciabilità, la certificazione — che la maggior parte delle implementazioni agentiche non affronta seriamente.

Lexiane integra uno strato agentivo progettato per la produzione: funzionale, controllabile, e architetturalmente separato dal nucleo certificato.


Il limite strutturale del RAG classico

Una pipeline RAG lineare funziona in una sola passata: la domanda dell’utente viene vettorizzata, i passaggi più simili vengono recuperati, e il LLM genera una risposta a partire da questo contesto. Per la maggior parte delle richieste documentali dirette, questo modello è efficace e sufficiente.

Ma si basa su un’ipotesi implicita raramente formulata: che il primo recupero sia sufficiente per produrre una risposta affidabile.

Questa ipotesi regge per le domande semplici e ben formulate. Cede in tre situazioni comuni.

La domanda è più ampia di ciò che il recupero iniziale può coprire. “Sintetizza le decisioni prese sul progetto X tra gennaio e marzo” richiede decine di passaggi sparsi in verbali, email esportate, note di riunione. Un recupero per similarità semantica restituisce i passaggi più vicini alla formulazione della domanda — non necessariamente i più pertinenti sull’intero periodo.

La domanda è ambigua o imprecisa. L’utente sa cosa cerca, ma non dispone del vocabolario tecnico esatto che permetterebbe alla ricerca vettoriale di mirare ai passaggi giusti. Il primo recupero restituisce risultati parzialmente pertinenti, ma non quelli che risponderebbero realmente alla domanda sottostante.

La risposta richiede di incrociare più fonti. Le informazioni pertinenti sono presenti nel corpus, ma sparse su decine di documenti che non si assomigliano semanticamente. Nessun recupero in una sola passata può aggregarle.

In questi tre casi, il RAG classico produce una risposta — ma una risposta fondata su un contesto insufficiente. Senza meccanismo di valutazione della qualità del recupero, il sistema non sa che sta rispondendo male. Risponde con la stessa apparente sicurezza, che abbia recuperato dieci passaggi perfettamente pertinenti o tre passaggi vagamente correlati.

Il RAG agentivo risolve questo problema introducendo un ciclo di ragionamento tra il recupero e la generazione.


Cos’è realmente un agente RAG — e cosa non è

Prima di dettagliare l’architettura, una chiarificazione si impone. Il termine “agentivo” viene utilizzato in modo molto ampio nel settore dell’IA, spesso per descrivere sistemi che sono in realtà workflow a fasi predefinite — una serie di operazioni codificate in modo fisso, eseguite sequenzialmente, senza decisione reale a ogni fase.

Un vero sistema agentivo si distingue per una proprietà fondamentale: prende decisioni contestuali a ogni iterazione, sulla base di una valutazione dello stato corrente — e queste decisioni possono divergere in base al contenuto recuperato, non solo in base alla struttura del workflow.

Non è un chatbot. Un chatbot mantiene una cronologia conversazionale e genera risposte contestualizzate — ma non cerca, non valuta, e non decide di riformulare la sua ricerca.

Non è un motore di ricerca avanzato. Un motore di ricerca restituisce risultati secondo un algoritmo di ranking. Non genera una risposta, non valuta se i risultati sono sufficienti, e non prende decisioni su cosa fare dopo.

Non è un workflow a fasi fisse. Un workflow predefinito esegue sempre le stesse operazioni nello stesso ordine. Un agente può percorrere percorsi diversi in base a ciò che trova — riformulare due volte se il primo recupero è insufficiente, chiamare uno strumento esterno se il contesto documentale è incompleto, astenersi se nessun percorso produce un contesto affidabile.

Il RAG agentivo di Lexiane è un orchestratore di pipeline RAG in un ciclo di ragionamento. A ogni iterazione, esegue una pipeline completa, valuta il risultato, e prende una decisione su cosa fare — secondo regole configurabili e guardie deterministiche.


Il ciclo di ragionamento: anatomia di un’iterazione

Fase 1 — Trasformazione e recupero

Ogni iterazione inizia con una fase di recupero. La richiesta corrente — che può essere la domanda iniziale riformulata, una sotto-domanda decomposta, o una domanda arricchita dal contesto delle iterazioni precedenti — passa attraverso la pipeline di recupero completa.

Il recupero non è una semplice ricerca vettoriale. Lexiane implementa lo stato dell’arte del recupero in produzione:

Trasformazione della richiesta. Prima di qualsiasi ricerca, il QueryTransformer può applicare diverse strategie in base alla configurazione:

  • Espansione della richiesta — arricchimento della domanda con sinonimi, termini correlati, e riformulazioni per coprire passaggi che non utilizzano le stesse parole della domanda.
  • HyDE (Hypothetical Document Embeddings) — generazione di un documento ipotetico che risponderebbe alla domanda, vettorizzazione di questo documento, e utilizzo del suo embedding per la ricerca. Questa strategia migliora significativamente la precisione della ricerca semantica su domande astratte o tecniche.
  • Decomposizione in sotto-domande — suddivisione della domanda iniziale in domande più mirate, ciascuna che affronta una dimensione specifica della risposta attesa.

Multi-query retrieval con RRF. Il MultiQueryRetrievalStage genera N varianti della richiesta, esegue un recupero indipendente per ciascuna, e fonde i risultati tramite Reciprocal Rank Fusion. La formula RRF — score(d) = Σ 1/(k + rango_i(d)) — produce un ranking consolidato che favorisce i documenti che appaiono in buona posizione in più liste indipendenti, senza essere dominato da un unico segnale di pertinenza.

Ricerca ibrida. Il recupero combina sistematicamente la ricerca densa (similarità vettoriale semantica) e la ricerca sparse (BM25, corrispondenza lessicale). I documenti pertinenti per il loro senso e i documenti pertinenti per i loro termini esatti vengono tutti recuperati — poi fusi e rerankati da un cross-encoder.

Fase 2 — Valutazione del contesto recuperato

Una volta effettuato il recupero, l’agente valuta la qualità del contesto ottenuto secondo diversi criteri:

Pertinenza globale. Il gate di pertinenza (RelevanceGateStage) calcola un punteggio di fiducia aggregato sui passaggi recuperati. Questo punteggio riflette in quale misura il contesto è allineato con la domanda posta.

Copertura tematica. L’agente valuta se i passaggi recuperati coprono le dimensioni della domanda — o se alcune dimensioni sono assenti dal contesto corrente. Una domanda che richiede un confronto tra due entità, di cui solo una è rappresentata nei passaggi recuperati, ha un contesto incompleto.

Coerenza interna. Passaggi contraddittori su uno stesso fatto sono un segnale che il recupero ha portato informazioni conflittuali — il che richiede o un recupero complementare per arbitrare, o una segnalazione esplicita della contraddizione nella risposta.

Fase 3 — Decisione

Sulla base di questa valutazione, l’agente prende una delle tre decisioni:

Rispondere. Il contesto è sufficientemente pertinente, completo, e coerente. La pipeline di generazione viene avviata con il contesto consolidato delle iterazioni successive. La risposta prodotta è ancorata in fonti tracciate, citate, e verificabili.

Riformulare e rilancire. Il contesto è insufficiente o parziale. L’agente riformula la richiesta utilizzando le informazioni tratte dai passaggi già recuperati per orientare la nuova ricerca. Questa riformulazione può prendere diverse forme: riformulazione diretta della domanda, decomposizione in sotto-domanda che mira alla dimensione mancante, o riformulazione per espansione verso il vocabolario identificato nei passaggi parzialmente pertinenti.

Chiamare uno strumento esterno. Il contesto documentale è intrinsecamente incompleto per questa richiesta — non perché il recupero sia imperfetto, ma perché l’informazione non è nel corpus. L’agente può chiamare uno strumento esterno configurato per arricchire il contesto: consultazione di un’API di dati in tempo reale, esecuzione di un calcolo, accesso a un database relazionale, o chiamata a un servizio specializzato.

Fase 4 — Controllo del ciclo

Guardie deterministiche incorniciano ogni iterazione e possono interrompere il ciclo indipendentemente dal comportamento del LLM:

  • Numero massimo di iterazioni — il ciclo si ferma dopo N cicli, qualunque siano i risultati ottenuti.
  • Latenza massima — un vincolo temporale globale sulla sessione agentiva.
  • Punteggio minimo di pertinenza — se il contesto non raggiunge la soglia richiesta dopo diverse riformulazioni, il sistema si astiene piuttosto che generare una risposta mal fondata.
  • Condizioni di sicurezza — i guardrail di input e output operano a ogni iterazione. Un’iniezione di prompt rilevata all’iterazione N interrompe il ciclo in quel punto.

Queste guardie sono regole configurabili, esplicite, e ispezionabili. Non dipendono da una soglia di fiducia interna del LLM — la cui calibrazione è opaca e variabile secondo i modelli.


La decisione architetturale che cambia tutto

L’agentivo fuori dal nucleo certificato

La decisione architettuale più importante del modulo agentivo di Lexiane non riguarda ciò che fa — riguarda dove si trova.

Il ciclo di ragionamento agentivo non è nel nucleo certificato. Orchestra il nucleo dall’esterno, tramite le sue interfacce pubbliche, esattamente come un utente umano orchestrerebbe pipeline manualmente — ma alla velocità di un programma.

Questa separazione non è un dettaglio di implementazione. È il principio che rende il sistema simultaneamente capace e verificabile.

Perché il ciclo agentivo non può essere nel nucleo certificato. Il nucleo di Lexiane esegue pipeline deterministiche. Dategli gli stessi input due volte, produce gli stessi output. È una proprietà fondamentale di un nucleo certificabile — senza di essa, i test non provano nulla e l’audit non può verificare nulla.

Il ciclo agentivo è non deterministico per natura. Il LLM che decide di riformulare o di rispondere non è un automa — le sue decisioni dipendono dal contesto corrente, dalla sua temperatura, dalla cronologia della sessione. Due sessioni con la stessa domanda iniziale possono percorrere percorsi diversi e arrivare per vie diverse a risposte equivalenti.

Mettere un comportamento non deterministico in un nucleo certificato lo renderebbe incertificabile. Lexiane li separa: il nucleo rimane deterministico, certificabile, verificabile. Lo strato agentivo rimane non deterministico, ma limitato e controllato.

Ciò che questa separazione garantisce concretamente.

Le pipeline eseguite dall’agente sono esattamente le stesse della modalità classica — stessi stage, stesse porte, stessa logica di validazione all’assemblaggio, stesso audit trail. L’agente non ha accesso ad alcuna funzionalità del nucleo che non sia esposta tramite le sue interfacce pubbliche.

Ogni pipeline attivata dall’agente — ogni iterazione del ciclo — produce i propri record nella catena SHA-256. La sequenza completa di decisioni è ricostruibile: perché l’agente ha riformulato all’iterazione 2, quali passaggi ha recuperato all’iterazione 3, perché ha infine deciso di rispondere all’iterazione 4.

Il comportamento non deterministico è contenuto nello strato agentivo e limitato dalle guardie deterministiche. Non può contaminare il nucleo né alterare le sue proprietà di sicurezza.


Ciò che il RAG agentivo rende possibile

Analisi di dossier complessi e voluminosi

Un dossier di risposta a gara d’appalto, un dossier normativo di immissione sul mercato, un dossier di contenzioso giuridico — questi insiemi documentali sono voluminosi, eterogenei, e richiedono di incrociare informazioni sparse su decine o centinaia di documenti.

Il RAG agentivo può decomporre automaticamente una richiesta di analisi in sotto-domande, trattarle iterativamente, e sintetizzare i risultati in una risposta strutturata. Una domanda come “Identifica i rischi contrattuali in questo dossier fornitore” diventa una serie di ricerche mirate: clausole di penale, condizioni di risoluzione, impegni di livelli di servizio, cronologia dei contenziosi — ciascuna trattata come un’iterazione distinta, i cui risultati vengono consolidati prima della sintesi finale.

Incrocio di fonti contraddittorie

Due rapporti sullo stesso incidente che divergono sui fatti. Due versioni di una procedura normativa che si contraddicono su un punto critico. Una norma e il suo decreto di applicazione che non sono perfettamente coerenti.

Una pipeline classica sceglie l’uno o l’altro contesto in base alla prossimità vettoriale. L’agente può identificare la contraddizione, richiedere entrambi i contesti in parallelo, e formulare una risposta che segnala esplicitamente la divergenza — con i riferimenti precisi ai documenti sorgente di ogni versione. È una proprietà qualitativa fondamentale per i contesti dove una risposta che maschera una contraddizione è peggio dell’assenza di risposta.

Estrazione e aggregazione su larga scala

Estrarre tutte le date di scadenza contrattuale da un corpus di 500 contratti. Identificare tutte le apparecchiature menzionate in 10.000 schede di manutenzione con la loro ultima data di intervento. Censire tutte le decisioni prese in consiglio di amministrazione su un argomento dato nell’arco di 24 mesi.

Questi compiti richiedono numerose passate di recupero mirato e un’aggregazione che la generazione in una sola passata non può produrre in modo affidabile su un corpus completo. L’agente può elaborare iterativamente sotto-insiemi del corpus, consolidare i risultati parziali, e produrre un risultato aggregato coerente.

Traversata del grafo di conoscenza

In configurazione GraphRAG, il RAG agentivo dispone di uno strumento aggiuntivo: la traversata multi-hop del grafo della conoscenza estratto dai documenti. Domande relazionali complesse — “Quali sono i legami tra questo progetto, i suoi fornitori, e gli incidenti di qualità documentati?” — possono essere risolte da una combinazione di recupero vettoriale e traversata del grafo RDF, ogni iterazione arricchendo il contesto da un’angolazione diversa.

Sessioni conversazionali con memoria di ragionamento

Il server Lexiane mantiene sessioni conversazionali persistenti. In un contesto agentivo, questa memoria va oltre la semplice cronologia degli scambi: l’agente può appoggiarsi al contesto consolidato delle domande precedenti per orientare il suo recupero sulle domande successive. Una sessione di analisi di dossier può estendersi su più scambi, ciascuno che si basa sul ragionamento degli scambi precedenti — senza che l’utente debba ricontestualizzare a ogni domanda.


Quando utilizzare il RAG agentivo — e quando non farlo

Il RAG agentivo non è universalmente superiore al RAG classico. È più potente per certi compiti, più costoso per tutti, e introduce una complessità operativa aggiuntiva. Lo strumento giusto dipende dalla natura delle richieste.

CriterioRAG classicoRAG agentivo
Domande dirette, ben formulateOttimaleSovradimensionato
Domande ambigue o impreciseRisultati variabiliMiglioramento significativo
Più fonti da incrociareRisultati parzialiMiglioramento significativo
Corpus < 10.000 documenti ben strutturatiSufficienteOpzionale
Corpus voluminoso, eterogeneoPuò mancarne passaggiRaccomandato
Estrazione e aggregazione su larga scalaDifficile su passata singolaProgettato per questo
Vincolo di latenza rigoroso (< 2s)AdattoInadatto (più iterazioni)
Ambiente certificato, comportamento deterministicoCertificabileNon certificabile (strato agentivo)
Budget token limitatoEconomicoConsumo multiplo

La regola pratica: se i vostri utenti pongono principalmente domande dirette su argomenti ben delimitati, il RAG classico con multi-query retrieval copre l’essenziale dei bisogni. Se i vostri casi d’uso implicano regolarmente analisi complesse, incroci multi-fonte, o estrazioni su larga scala — il RAG agentivo è la modalità adatta.

Le due modalità coesistono in Lexiane e utilizzano esattamente le stesse pipeline sottostanti. Il passaggio dall’una all’altra è una decisione di configurazione per tipo di richiesta, non una migrazione di sistema.


Il controllo umano nel ciclo agentivo

La questione del controllo umano sui sistemi agentivi è centrale — sia per i team di governance IA sia per i riferimenti normativi come l’AI Act. Un sistema che ragiona in modo autonomo deve essere osservabile, interrompibile, e verificabile.

Osservabilità di ogni iterazione

Ogni iterazione del ciclo agentivo è registrata nella catena di audit SHA-256: domanda posta, strategia di riformulazione scelta, passaggi recuperati, decisione presa (rispondere / riformulare / strumento), punteggio di pertinenza valutato. La sequenza completa di ragionamento è consultabile dopo il fatto — non solo la risposta finale.

Questa granularità di audit permette a un supervisore di capire perché il sistema ha preso un determinato percorso — e di identificare i casi dove il ragionamento è stato subottimale, per regolare i parametri del ciclo.

Guardie deterministiche come meccanismo di controllo

Le guardie che incorniciano il ciclo agentivo non sono parametri del LLM. Sono regole configurabili applicate dal codice dell’orchestratore, indipendentemente dalle decisioni del modello linguistico. Anche se il LLM “decide” di continuare a riformulare, le guardie possono interrompere il ciclo.

Queste guardie rappresentano la politica che la vostra organizzazione ha definito sull’utilizzo del sistema: numero massimo di iterazioni, latenza massima, soglia minima di pertinenza per avviare la generazione. Sono la materializzazione del controllo umano nel ciclo.

Monitoraggio del consumo di risorse

Le statistiche di token consumati (UsageStats) sono accumulate sull’intera sessione agentiva e accessibili dopo l’esecuzione. In configurazione cloud, questi dati permettono di monitorare e pianificare il consumo API di una sessione di ragionamento multi-iterazioni — e di rilevare sessioni anormalmente lunghe o costose.

Ciclo di feedback

La porta FeedbackStore permette agli utenti di valutare le risposte prodotte dal sistema agentivo. Questi feedback alimentano un registro utilizzabile per il miglioramento continuo: identificazione dei tipi di richieste dove il ragionamento agentivo è insufficiente, dei domini dove la qualità del recupero è bassa, dei casi dove la riformulazione automatica peggiora i risultati piuttosto che migliorarli.


Considerazioni di performance e di costo

Il RAG agentivo consuma più risorse di una pipeline classica — per definizione, poiché esegue più pipeline dove la modalità classica ne esegue una. Questa realtà deve essere integrata nella progettazione del deployment.

Consumo di token. Ogni iterazione del ciclo genera embedding per la riformulazione, recupera passaggi, e sollecita il LLM per la decisione ed eventualmente la generazione. Su un modello cloud, ciò si traduce in una moltiplicazione dei costi API rispetto a una pipeline classica. Le guardie di limitazione di iterazioni sono il principale meccanismo di controllo di questi costi.

Latenza. Il tempo di risposta di una sessione agentiva è la somma dei tempi di risposta di ogni iterazione. Una sessione a tre iterazioni richiede tre volte più tempo di una pipeline classica, più il sovracosto della valutazione inter-iterazioni. Il RAG agentivo non è adatto ai casi d’uso che impongono una latenza di risposta inferiore a qualche secondo.

Strategie di controllo dei costi in produzione.

Instradamento per complessità. La porta QueryRouter di Lexiane permette di classificare ogni richiesta e di dirigerla verso la modalità adatta — classica per le domande dirette, agentiva per le domande complesse. Questo instradamento riduce significativamente il consumo medio, riservando la modalità agentiva alle richieste che ne hanno realmente bisogno.

Modello di decisione leggero. La decisione di riformulare o di rispondere può essere affidata a un modello linguistico meno potente (e meno costoso) del modello di generazione. Solo la generazione finale sollecita il modello di qualità massima — le iterazioni intermedie utilizzano un modello di decisione economico.

Cache semantica. La porta SemanticCache permette di mettere in cache le risposte a richieste semanticamente vicine alle richieste precedenti. Una domanda già trattata — o una domanda molto simile — non attiva una nuova sessione agentiva: la risposta viene restituita direttamente dalla cache.


Domande frequenti

Come Lexiane determina che una riformulazione è migliore della precedente? La valutazione della qualità del contesto recuperato si basa sul punteggio del gate di pertinenza (RelevanceGateStage) e sulle metriche di copertura. La decisione di riformulare viene presa quando questo punteggio è inferiore alla soglia configurata. La strategia di riformulazione — espansione, decomposizione, HyDE — è determinata dalla configurazione dello strato agentivo e dall’analisi del contesto parziale recuperato.

L’agente può modificare dati o attivare azioni in sistemi esterni? Solo le azioni esplicitamente configurate come strumenti disponibili. Il modulo agentivo non ha accesso a funzionalità non definite nella sua configurazione. Gli strumenti disponibili, i loro parametri, e le loro autorizzazioni sono definiti all’assemblaggio — non dinamicamente dal LLM. L’agente non può auto-attribuirsi capacità.

Come garantire che l’agente non vada in una direzione indesiderata su domande sensibili? I guardrail di ingresso e di uscita operano a ogni iterazione. Una richiesta sensibile viene bloccata dall’InputGuardrail non appena rilevata — non solo sulla domanda iniziale, ma su ogni riformulazione prodotta dall’agente. Una risposta che viola le politiche di contenuto viene intercettata dall’OutputGuardrail prima della trasmissione. Le guardie deterministiche di limitazione di iterazioni limitano la durata di qualsiasi ragionamento.

Il RAG agentivo è compatibile con il RAG Privato (air-gapped)? Sì. In configurazione air-gapped, il ciclo agentivo si esegue interamente in locale — con il LLM locale (Mistral.rs) come motore di decisione. Il vincolo principale è la capacità di ragionamento del modello locale: un modello 7B-13B è competente per la maggior parte delle decisioni di riformulazione documentale, ma può mostrare limiti su ragionamenti molto complessi. La configurazione ibrida — decisione agentiva delegata a un LLM cloud su frammenti anonimizzati — offre un compromesso tra potenza di ragionamento e sovranità dei dati sorgente.

È possibile limitare il RAG agentivo a certi utenti o certi tipi di richieste? Sì. L’instradamento per complessità (QueryRouter) permette di attivare la modalità agentiva selettivamente — secondo il profilo utente, il tipo di richiesta, o la collezione documentale interrogata. Un utente standard può essere instradato verso la pipeline classica, mentre un analista senior dispone della modalità agentiva per le sue richieste complesse.

Come fare il debug di una sessione agentiva il cui risultato è insoddisfacente? L’audit trail registra ogni iterazione con i suoi parametri: domanda riformulata, strategia di trasformazione utilizzata, passaggi recuperati, punteggio di pertinenza valutato, decisione presa. La ricostruzione completa del ragionamento è possibile a partire da questa catena — il che permette di identificare precisamente l’iterazione dove il ragionamento ha deviato e di regolare i parametri di conseguenza.


Parliamo dei vostri casi d’uso complessi.

Il RAG agentivo apporta più valore su bisogni documentali precisi: corpus voluminosi e eterogenei, domande trasversali a molte fonti, compiti di estrazione e aggregazione su larga scala. Questi bisogni variano significativamente secondo le organizzazioni.

Proponiamo uno scambio sui vostri casi d’uso concreti — le domande che i vostri team pongono oggi e a cui il vostro sistema documentale risponde male, le analisi complesse che richiedono ancora un intervento manuale, i corpus che resistono a una ricerca classica. E una valutazione onesta di ciò che il RAG agentivo può apportare — incluso se la modalità classica con multi-query retrieval copre l’essenziale del vostro bisogno a minor costo.

Cosa potete aspettarvi:

  • Una risposta entro 48 ore lavorative
  • Un interlocutore tecnico che conosce i casi d’uso agentivi in produzione e i loro limiti reali
  • Una raccomandazione di configurazione calibrata sul vostro bisogno — modalità classica, agentiva, o ibrida secondo i tipi di richieste

→ Contattaci

Nessun impegno commerciale. Una conversazione sui vostri casi d’uso.

Richiedere l'accesso al Core Auditable

Iscrivetevi per essere informati dell'apertura del programma di audit del nostro Core. Conformemente alla nostra informativa sulla privacy, il vostro indirizzo e-mail professionale sarà utilizzato esclusivamente per questa comunicazione tecnica, senza alcun utilizzo commerciale successivo. Accesso distribuito tramite registro privato sicuro.

Contattaci