Lexiane est un pipeline de traitement documentaire end-to-end, conçu pour les organisations qui ne peuvent pas laisser leurs données entre les mains d’un tiers. Ingestion, parsing, découpage sémantique, détection des données personnelles, enrichissement, indexation vectorielle, audit cryptographique : chaque étape s’exécute dans un seul binaire, sur votre infrastructure, sans appel réseau.

Le problème que vos données posent à la plupart des solutions IA

Les plateformes RAG et les outils d’IA du marché vous placent devant un choix structurellement défavorable : envoyer vos documents dans le cloud d’un éditeur tiers, ou renoncer à l’intelligence artificielle.

Ce choix est présenté comme un compromis technique. Il est en réalité un transfert de risque — juridique, réglementaire, stratégique. Vos procédures internes, vos contrats, vos données patients, vos rapports financiers, vos spécifications techniques : dès qu’ils quittent votre périmètre, vous perdez le contrôle de ce qui leur arrive.

Lexiane part d’un principe opposé : le traitement de vos données se fait là où elles sont, avec les garanties que vous avez définies — pas celles que votre fournisseur vous autorise.

Un pipeline de traitement documentaire complet, sans dépendance externe

Parsing natif de vos formats documentaires

Le premier maillon d’un traitement de données de qualité est la capacité à lire vos documents tels qu’ils sont, dans leurs formats de production. Le parseur de Lexiane est écrit en pur Rust — aucune dépendance Python, aucun service tiers, aucun appel réseau.

Formats supportés nativement :

Format	Cas d’usage typiques
PDF	Rapports, contrats, spécifications, dossiers réglementaires
Excel (.xlsx, .xls, .ods)	Tableaux de données, budgets, inventaires, référentiels
PowerPoint (.pptx)	Présentations, supports de formation, slides stratégiques
HTML	Pages intranet, exports de wikis, documentation web
Markdown	Documentation technique, bases de connaissances, notes structurées
Texte brut	Notes, emails exportés, journaux, données semi-structurées

Un seul binaire lit, parse et indexe vos documents. Pas d’interpréteur Python à maintenir, pas de serveur secondaire à opérer, pas de surface d’attaque supplémentaire.

Découpage sémantique à granularité configurable

La qualité d’un traitement documentaire ne tient pas seulement à ce que vous lisez — elle tient à comment vous le découpez. Un mauvais découpage produit des fragments qui coupent les idées au milieu d’une phrase, séparent une question de sa réponse, ou brisent la cohérence d’un tableau.

Le moteur de chunking de Lexiane opère avec une précision configurable :

Taille et chevauchement adaptés à la nature de votre corpus
Respect des frontières linguistiques jusqu’au graphème Unicode — vos documents en français, arabe, chinois ou japonais sont découpés correctement
Hiérarchie parent-enfant : chaque fragment conserve une référence à son contexte parent, récupérable à la génération pour restituer le passage complet
Découpage sémantique récursif : le système respecte la structure du document — paragraphes, sections, listes — plutôt que de compter mécaniquement des caractères

Le résultat : des fragments qui font sens indépendamment, indexables avec précision, contextualisables à la restitution.

Enrichissement automatique avant indexation

Chaque fragment documentaire passe par une étape d’enrichissement avant vectorisation. L’objectif : augmenter la qualité de récupération en ajoutant à chaque segment les métadonnées qui le rendent plus précisément retrouvable.

Enrichissements appliqués :

Nombre de tokens et de mots du segment
Extraction automatique de mots-clés représentatifs
Résumé du segment pour la recherche hybride
Contenu augmenté (contexte du document parent injecté dans le chunk)
Identifiants de traçabilité (document source, position, hash du contenu)

Ces enrichissements font partie intégrante du pipeline d’ingestion — ils s’appliquent à chaque document dès la première indexation, sans étape manuelle.

Extraction de graphe de connaissances (GraphRAG)

Pour les corpus riches en relations — documents réglementaires, archives de projets, bases de connaissances métier, rapports d’audit — une recherche vectorielle seule ne suffit pas. Elle retrouve des passages similaires. Elle ne comprend pas les liens entre les entités qui y sont mentionnées.

Le moteur GraphRAG de Lexiane extrait automatiquement les triplets de connaissance de vos documents — sujet, prédicat, objet — et les stocke dans un triplestore RDF persistant. La base ainsi construite comprend les relations entre personnes, organisations, projets, dates et réglementations.

Ce que cela rend possible :

“Quels fournisseurs sont mentionnés dans les audits de 2023 ET dans les contrats actifs ?”

“Quels projets sont liés à ce responsable et à quelle réglementation ?”

“Identifier les chaînes de dépendance entre les composants mentionnés dans ces 500 fiches techniques.”

La traversée multi-hop du graphe produit des informations que la recherche vectorielle seule ne peut pas structurellement atteindre.

Protection des données personnelles par architecture

Filtrage PII intégré dans le pipeline

Le filtre PII (Personally Identifiable Information) de Lexiane opère avant toute vectorisation, toute indexation, et tout appel à un modèle de langage. Aucune donnée sensible n’atteint votre vector store ou votre LLM sans avoir été traitée selon vos règles.

Données personnelles détectées :

Type de donnée	Exemples
Adresses email	`jean.dupont@entreprise.fr`
Numéros de téléphone	Formats nationaux et internationaux
IBAN et coordonnées bancaires	`FR76 1234 5678 9012 3456 7890 189`
Numéros de sécurité sociale	Formats français et européens
Adresses IP	IPv4 et IPv6
Identifiants configurables	Selon votre référentiel métier

Politiques de traitement configurables :

Masquage typé — remplacement par un placeholder sémantique [EMAIL], [IBAN], [TELEPHONE] : le type d’information reste lisible, la valeur disparaît
Suppression — retrait complet de la valeur du fragment
Hachage — remplacement par l’empreinte cryptographique de la valeur : permet la cohérence des références sans exposer la donnée

Cette architecture garantit la conformité RGPD par construction et non par processus : la donnée n’atteint pas le système de stockage avant d’avoir été traitée. Ce n’est pas une règle de bonne conduite. C’est une contrainte mécanique du pipeline.

Traçabilité et audit cryptographique à chaque étape

Une chaîne d’intégrité SHA-256 inviolable

Chaque action du pipeline de traitement est enregistrée dans une chaîne d’audit cryptographique. Chaque entrée est signée par le hash SHA-256 de la précédente — toute modification ultérieure d’un événement est mathématiquement détectable.

Événements tracés dans la chaîne :

Document soumis à l’ingestion (identifiant, hash du contenu, horodatage)
Fragments créés et leurs paramètres de découpage
Embeddings générés (modèle, dimension, date)
Entités extraites pour le graphe de connaissances
Données personnelles détectées et politique appliquée
Requêtes utilisateurs et documents consultés
Réponses produites et leurs sources

Ce n’est pas une fonctionnalité de journalisation. C’est une garantie d’intégrité structurelle : vous pouvez prouver à n’importe quel moment que le traitement s’est déroulé exactement comme enregistré, et qu’aucun enregistrement n’a été modifié après coup.

Pour un auditeur, un responsable conformité ou un régulateur, cette chaîne constitue une preuve technique indépendante de vos processus déclarés.

Évaluation de la qualité en sortie de pipeline

Des métriques mesurées, pas des suppositions

La qualité d’un pipeline de traitement documentaire ne se décrète pas à l’installation — elle se mesure en production, sur vos données réelles. Lexiane intègre des métriques d’évaluation RAGAS en sortie de pipeline :

Fidélité : la réponse produite est-elle ancrée dans les sources récupérées ?
Pertinence : les sources récupérées répondent-elles réellement à la question posée ?
Précision du contexte : les fragments récupérés sont-ils spécifiquement pertinents ?
Rappel du contexte : le pipeline a-t-il retrouvé l’ensemble des informations disponibles ?

Les guardrails d’entrée détectent les tentatives d’injection de prompt et les requêtes hors périmètre avant qu’elles n’atteignent le pipeline. Les guardrails de sortie vérifient la réponse produite avant transmission à l’utilisateur.

La porte de pertinence évalue le score de confiance global du contexte récupéré. Si les sources ne sont pas suffisamment fiables pour produire une réponse fondée, le système s’abstient — plutôt que de générer une réponse mal ancrée. C’est l’opposé de l’hallucination : un système qui sait quand il ne sait pas. Pour les cas où plusieurs itérations de récupération sont nécessaires, le RAG agentique automatise ce processus.

Lexiane comme pipeline de traitement de données autonome

Ces capacités ne sont pas réservées aux cas d’usage RAG conversationnel. Lexiane peut être déployé comme pipeline de traitement de données pur, indépendamment de toute interface de génération :

Extraction et normalisation documentaire en masse sur vos archives existantes
Détection et anonymisation PII sur un corpus avant migration ou archivage réglementaire
Construction d’un graphe de connaissances à partir de vos documents de référence
Audit cryptographique de l’ensemble de vos flux documentaires
Indexation vectorielle de votre base pour une recherche sémantique sans LLM

La même rigueur architecturale, le même audit trail, la même protection des données — appliqués à vos flux de traitement existants, sans interface conversationnelle si vous n’en avez pas besoin.

Trois modes de déploiement, un seul pipeline

Air-gapped — souveraineté absolue

Parsing, chunking, enrichissement, filtrage PII, indexation vectorielle et construction du graphe : l’intégralité du pipeline s’exécute en local dans un seul binaire. Zéro appel réseau. Zéro donnée sortante. Déployable dans un réseau classifié, un datacenter souverain, ou un site industriel sans connectivité permanente.

Cloud — puissance maximale

Modèles d’embeddings et LLM cloud (OpenAI, Anthropic) activés via variable d’environnement. Le pipeline reste identique — seuls les adaptateurs changent. Si demain vous remplacez OpenAI par un modèle auto-hébergé, votre pipeline de traitement ne change pas d’une ligne.

Hybride — données sensibles sur site, génération dans le cloud

Les embeddings sont calculés localement sur vos documents. La génération est déléguée à un modèle cloud uniquement sur les fragments de contexte anonymisés. Vos documents sources ne sortent jamais. Le LLM cloud reçoit des extraits — pas vos fichiers.

Garanties techniques vérifiables

Garantie	Mécanisme d’application
Aucune opération mémoire risquée dans le cœur	`#![forbid(unsafe_code)]` appliqué par le compilateur — pas par revue de code
Aucun chemin d’erreur ignorable	`#[must_use]` sur tous les résultats — un chemin ignoré est une erreur de compilation
Aucun `unwrap()` / `panic!()` en production	Garanti par test automatisé en continu
Intégrité de la chaîne d’audit	SHA-256 chainé — toute modification est mathématiquement détectable
Validation des dépendances entre étapes	À l’assemblage, avant exécution — les erreurs de configuration n’atteignent pas le runtime
Zéro dépendance vendor dans le cœur certifié	Vérifié par test automatisé à la compilation

1 254 tests automatisés passent en continu. 27 modules indépendants, chacun avec ses propres frontières de compilation. 25 interfaces d’abstraction définissent l’intégralité des points de contact entre le cœur et l’extérieur.

Ce que vos équipes gagnent concrètement

Pour votre RSSI Chaque donnée traitée est tracée. Chaque politique PII est appliquée mécaniquement, pas par convention. L’audit trail SHA-256 constitue une preuve technique indépendante de vos processus de traitement — consultable, exportable, inviolable.

Pour votre DPO La conformité RGPD n’est pas une case à cocher après déploiement. Elle est inscrite dans l’architecture : les données personnelles ne peuvent pas atteindre votre vector store ou votre LLM sans avoir été traitées selon vos règles. Le registre des traitements est auditable à partir de la chaîne cryptographique.

Pour votre CTO Un seul binaire, pas de runtime, pas de gestionnaire de paquets, pas de serveur secondaire. L’ensemble du pipeline — parsing, chunking, PII, embeddings, indexation — se déploie comme n’importe quel binaire Linux. Pas d’image Docker de 800 Mo. Pas de dépendances Python à maintenir. Une configuration TOML. C’est tout.

Pour vos équipes conformité dans les secteurs régulés Lexiane est le seul moteur de traitement documentaire IA conçu pour la certification. IEC 62304 Ed. 2 (publication prévue août 2026) introduira des exigences explicites sur les systèmes IA/ML dans les dispositifs médicaux. ISO 26262 pour l’automobile. Lexiane est compilable avec Ferrocene, le compilateur Rust qualifié ASIL D / SIL 4. Votre dossier de qualification remonte du binaire déployé jusqu’au compilateur utilisé pour le produire.

Parlons de votre corpus documentaire.

Chaque traitement de données a ses propres contraintes : format, volume, sensibilité, réglementation sectorielle, exigences d’auditabilité. Nous ne proposons pas de démonstration générique.

Nous proposons un échange sur votre cas concret : vos documents, vos contraintes, vos questions de conformité. Et une évaluation honnête de ce que Lexiane peut faire — y compris si la réponse est “pas maintenant” ou “pas comme ça”.

Ingénierie de données IA | Traitement documentaire souverain | Lexiane