Vai al contenuto
Pipeline sovrana di ingegneria dei dati e vettorizzazione documentale

Ingegneria dei Dati IA | Elaborazione Documentale Sovrana | Lexiane

Pipeline sovrana di elaborazione documentale: parsing Rust, chunking semantico, filtro PII, GraphRAG, audit SHA-256. Zero dipendenza cloud.

Lexiane è una pipeline di elaborazione documentale end-to-end, progettata per le organizzazioni che non possono affidare i propri dati a terzi. Ingestione, parsing, chunking semantico, rilevamento di dati personali, arricchimento, indicizzazione vettoriale, audit crittografico: ogni fase si esegue in un unico binario, sulla vostra infrastruttura, senza chiamate di rete.


Il problema che i vostri dati pongono alla maggior parte delle soluzioni IA

Le piattaforme RAG e gli strumenti IA sul mercato vi pongono davanti a una scelta strutturalmente sfavorevole: inviare i vostri documenti nel cloud di un editore terzo, oppure rinunciare all’intelligenza artificiale.

Questa scelta viene presentata come un compromesso tecnico. In realtà è un trasferimento di rischio — giuridico, regolatorio, strategico. Le vostre procedure interne, i vostri contratti, i vostri dati dei pazienti, i vostri rapporti finanziari, le vostre specifiche tecniche: dal momento in cui escono dal vostro perimetro, perdete il controllo su ciò che accade loro.

Lexiane parte dal principio opposto: l’elaborazione dei vostri dati avviene dove si trovano, con le garanzie che avete definito — non quelle che il vostro fornitore vi autorizza.


Una pipeline di elaborazione documentale completa, senza dipendenza esterna

Parsing nativo dei vostri formati documentali

Il primo anello di un’elaborazione di dati di qualità è la capacità di leggere i vostri documenti così come sono, nei loro formati di produzione. Il parser di Lexiane è scritto in puro Rust — nessuna dipendenza Python, nessun servizio terzo, nessuna chiamata di rete.

Formati supportati nativamente:

FormatoCasi d’uso tipici
PDFRapporti, contratti, specifiche, dossier regolatori
Excel (.xlsx, .xls, .ods)Tabelle di dati, budget, inventari, referenziali
PowerPoint (.pptx)Presentazioni, materiali formativi, slide strategiche
HTMLPagine intranet, export di wiki, documentazione web
MarkdownDocumentazione tecnica, basi di conoscenza, note strutturate
Testo sempliceNote, email esportate, journal, dati semi-strutturati

Un unico binario legge, analizza e indicizza i vostri documenti. Nessun interprete Python da mantenere, nessun server secondario da gestire, nessuna superficie di attacco aggiuntiva.


Chunking semantico a granularità configurabile

La qualità di un’elaborazione documentale non dipende solo da ciò che si legge — ma da come lo si divide. Un chunking scadente produce frammenti che spezzano le idee a metà di una frase, separano una domanda dalla sua risposta, o rompono la coerenza di una tabella.

Il motore di chunking di Lexiane opera con precisione configurabile:

  • Dimensione e sovrapposizione adattate alla natura del vostro corpus
  • Rispetto dei confini linguistici fino al grafema Unicode — i vostri documenti in italiano, arabo, cinese o giapponese vengono divisi correttamente
  • Gerarchia padre-figlio: ogni frammento conserva un riferimento al suo contesto padre, recuperabile in fase di generazione per restituire il passaggio completo
  • Chunking semantico ricorsivo: il sistema rispetta la struttura del documento — paragrafi, sezioni, elenchi — anziché contare meccanicamente i caratteri

Il risultato: frammenti che hanno senso indipendentemente, indicizzabili con precisione, contestualizzabili alla restituzione.


Arricchimento automatico prima dell’indicizzazione

Ogni frammento documentale passa attraverso una fase di arricchimento prima della vettorizzazione. L’obiettivo: aumentare la qualità del recupero aggiungendo a ogni segmento i metadati che lo rendono più precisamente ritrovabile.

Arricchimenti applicati:

  • Numero di token e di parole del segmento
  • Estrazione automatica di parole chiave rappresentative
  • Riassunto del segmento per la ricerca ibrida
  • Contenuto arricchito (contesto del documento padre iniettato nel chunk)
  • Identificatori di tracciabilità (documento sorgente, posizione, hash del contenuto)

Questi arricchimenti fanno parte integrante della pipeline di ingestione — si applicano a ogni documento fin dalla prima indicizzazione, senza fasi manuali.


Estrazione di grafo di conoscenza (GraphRAG)

Per i corpus ricchi di relazioni — documenti regolatori, archivi di progetto, basi di conoscenza aziendali, rapporti di audit — una ricerca vettoriale da sola non è sufficiente. Trova passaggi simili. Non comprende i legami tra le entità menzionate.

Il motore GraphRAG di Lexiane estrae automaticamente le triple di conoscenza dai vostri documenti — soggetto, predicato, oggetto — e le memorizza in un triplestore RDF persistente. La base così costruita comprende le relazioni tra persone, organizzazioni, progetti, date e regolamenti.

Ciò che questo rende possibile:

“Quali fornitori sono menzionati negli audit del 2023 E nei contratti attivi?”

“Quali progetti sono collegati a questo responsabile e a quale regolamento?”

“Identificare le catene di dipendenza tra i componenti menzionati in queste 500 schede tecniche.”

La traversata multi-hop del grafo produce informazioni che la ricerca vettoriale da sola non può strutturalmente raggiungere.


Protezione dei dati personali per architettura

Filtraggio PII integrato nella pipeline

Il filtro PII (Personally Identifiable Information) di Lexiane opera prima di qualsiasi vettorizzazione, indicizzazione, e chiamata a un modello linguistico. Nessun dato sensibile raggiunge il vostro vector store o il vostro LLM senza essere stato trattato secondo le vostre regole.

Dati personali rilevati:

Tipo di datoEsempi
Indirizzi emailmario.rossi@azienda.it
Numeri di telefonoFormati nazionali e internazionali
IBAN e coordinate bancarieIT60 X054 2811 1010 0000 0123 456
Codici fiscali e previdenzialiFormati italiani ed europei
Indirizzi IPIPv4 e IPv6
Identificatori configurabiliIn base al vostro referenziale aziendale

Politiche di trattamento configurabili:

  • Mascheramento tipizzato — sostituzione con un placeholder semantico [EMAIL], [IBAN], [TELEFONO]: il tipo di informazione rimane leggibile, il valore scompare
  • Eliminazione — rimozione completa del valore dal frammento
  • Hash — sostituzione con l’impronta crittografica del valore: consente la coerenza dei riferimenti senza esporre il dato

Questa architettura garantisce la conformità GDPR per costruzione e non per processo: il dato non raggiunge il sistema di archiviazione prima di essere stato trattato. Non è una regola di buona condotta. È un vincolo meccanico della pipeline.


Tracciabilità e audit crittografico a ogni fase

Una catena di integrità SHA-256 inviolabile

Ogni azione della pipeline di elaborazione è registrata in una catena di audit crittografica. Ogni voce è firmata dall’hash SHA-256 della precedente — qualsiasi modifica successiva di un evento è matematicamente rilevabile.

Eventi tracciati nella catena:

  • Documento sottoposto all’ingestione (identificatore, hash del contenuto, timestamp)
  • Frammenti creati e i loro parametri di divisione
  • Embedding generati (modello, dimensione, data)
  • Entità estratte per il grafo di conoscenza
  • Dati personali rilevati e politica applicata
  • Richieste utente e documenti consultati
  • Risposte prodotte e le loro fonti

Non è una funzionalità di logging. È una garanzia di integrità strutturale: potete dimostrare in qualsiasi momento che l’elaborazione si è svolta esattamente come registrato, e che nessun record è stato modificato dopo il fatto.

Per un revisore, un responsabile conformità o un regolatore, questa catena costituisce una prova tecnica indipendente dei vostri processi dichiarati.


Valutazione della qualità in uscita dalla pipeline

Metriche misurate, non supposizioni

La qualità di una pipeline di elaborazione documentale non si decreta all’installazione — si misura in produzione, sui vostri dati reali. Lexiane integra metriche di valutazione RAGAS in uscita dalla pipeline:

  • Fedeltà: la risposta prodotta è ancorata nelle fonti recuperate?
  • Pertinenza: le fonti recuperate rispondono realmente alla domanda posta?
  • Precisione del contesto: i frammenti recuperati sono specificamente pertinenti?
  • Richiamo del contesto: la pipeline ha ritrovato l’insieme delle informazioni disponibili?

Guardrail di input rilevano i tentativi di iniezione di prompt e le richieste fuori perimetro prima che raggiungano la pipeline. I guardrail d’uscita verificano la risposta prodotta prima della trasmissione all’utente.

Il gate di pertinenza valuta il punteggio di fiducia globale del contesto recuperato. Se le fonti non sono sufficientemente affidabili per produrre una risposta fondata, il sistema si astiene — piuttosto che generare una risposta mal ancorata. È il contrario dell’allucinazione: un sistema che sa quando non sa. Per i casi che richiedono più iterazioni di recupero, il RAG Agentivo automatizza questo processo.


Lexiane come pipeline di elaborazione dati autonoma

Queste capacità non sono riservate ai casi d’uso RAG conversazionale. Lexiane può essere deployato come pipeline di elaborazione dati pura, indipendentemente da qualsiasi interfaccia di generazione:

  • Estrazione e normalizzazione documentale in massa sui vostri archivi esistenti
  • Rilevamento e anonimizzazione PII su un corpus prima di migrazione o archiviazione regolamentare
  • Costruzione di un grafo di conoscenza a partire dai vostri documenti di riferimento
  • Audit crittografico dell’insieme dei vostri flussi documentali
  • Indicizzazione vettoriale della vostra base per una ricerca semantica senza LLM

Lo stesso rigore architetturale, lo stesso audit trail, la stessa protezione dei dati — applicati ai vostri flussi di elaborazione esistenti, senza interfaccia conversazionale se non ne avete bisogno.


Tre modalità di deployment, un’unica pipeline

Air-gapped — sovranità assoluta

Parsing, chunking, arricchimento, filtraggio PII, indicizzazione vettoriale e costruzione del grafo: l’intera pipeline si esegue in locale in un unico binario. Zero chiamate di rete. Zero dati in uscita. Deployabile in una rete classificata, un datacenter sovrano, o un sito industriale senza connettività permanente.

Cloud — potenza massima

Modelli di embedding e LLM cloud (OpenAI, Anthropic) attivati tramite variabile d’ambiente. La pipeline rimane identica — solo gli adattatori cambiano. Se domani sostituite OpenAI con un modello self-hosted, la vostra pipeline di elaborazione non cambia di una riga.

Ibrido — dati sensibili on-site, generazione nel cloud

Gli embedding vengono calcolati localmente sui vostri documenti. La generazione è delegata a un modello cloud solo sui frammenti di contesto anonimizzati. I vostri documenti sorgente non escono mai. Il LLM cloud riceve estratti — non i vostri file.


Garanzie tecniche verificabili

GaranziaMeccanismo di applicazione
Nessuna operazione di memoria rischiosa nel nucleo#![forbid(unsafe_code)] applicato dal compilatore — non da revisione del codice
Nessun percorso di errore ignorabile#[must_use] su tutti i risultati — un percorso ignorato è un errore di compilazione
Nessun unwrap() / panic!() in produzioneGarantito da test automatizzato continuo
Integrità della catena di auditSHA-256 concatenato — qualsiasi modifica è matematicamente rilevabile
Validazione delle dipendenze tra fasiAll’assemblaggio, prima dell’esecuzione — gli errori di configurazione non raggiungono il runtime
Zero dipendenze vendor nel nucleo certificatoVerificato da test automatizzato alla compilazione

1.254 test automatizzati passano in continuo. 27 moduli indipendenti, ciascuno con i propri confini di compilazione. 25 interfacce di astrazione definiscono l’insieme dei punti di contatto tra il nucleo e l’esterno.


Ciò che i vostri team guadagnano concretamente

Per il vostro CISO Ogni dato elaborato è tracciato. Ogni politica PII è applicata meccanicamente, non per convenzione. L’audit trail SHA-256 costituisce una prova tecnica indipendente dei vostri processi di elaborazione — consultabile, esportabile, inviolabile.

Per il vostro DPO La conformità GDPR non è una casella da spuntare dopo il deployment. È inscritta nell’architettura: i dati personali non possono raggiungere il vostro vector store o il vostro LLM senza essere stati trattati secondo le vostre regole. Il registro dei trattamenti è verificabile a partire dalla catena crittografica.

Per il vostro CTO Un unico binario, nessun runtime, nessun gestore di pacchetti, nessun server secondario. L’intera pipeline — parsing, chunking, PII, embedding, indicizzazione — si deploya come qualsiasi binario Linux. Nessuna immagine Docker da 800 MB. Nessuna dipendenza Python da mantenere. Una configurazione TOML. Tutto qui.

Per i vostri team di conformità nei settori regolamentati Lexiane è l’unico motore di elaborazione documentale IA progettato per la certificazione. IEC 62304 Ed. 2 (pubblicazione prevista agosto 2026) introdurrà requisiti espliciti sui sistemi IA/ML nei dispositivi medici. ISO 26262 per l’automotive. Lexiane è compilabile con Ferrocene, il compilatore Rust qualificato ASIL D / SIL 4. Il vostro dossier di qualificazione risale dal binario deployato fino al compilatore utilizzato per produrlo.


Parliamo del vostro corpus documentale.

Ogni elaborazione di dati ha i propri vincoli: formato, volume, sensibilità, regolamentazione settoriale, requisiti di auditabilità. Non proponiamo dimostrazioni generiche.

Proponiamo uno scambio sul vostro caso concreto: i vostri documenti, i vostri vincoli, le vostre domande di conformità. E una valutazione onesta di ciò che Lexiane può fare — incluso se la risposta è “non ora” o “non in questo modo”.

→ Contattaci

Nessun impegno commerciale. Una conversazione sul vostro corpus.

Richiedere l'accesso al Core Auditable

Iscrivetevi per essere informati dell'apertura del programma di audit del nostro Core. Conformemente alla nostra informativa sulla privacy, il vostro indirizzo e-mail professionale sarà utilizzato esclusivamente per questa comunicazione tecnica, senza alcun utilizzo commerciale successivo. Accesso distribuito tramite registro privato sicuro.

Contattaci