Ingénierie de données IA | Traitement documentaire souverain | Lexiane
Audit, nettoyage et vectorisation de vos documents pour des performances RAG optimales. Parsing natif Rust (PDF, Excel, PPTX, HTML, Markdown), découpage sémantique, extraction de graphe de connaissances. Traitement 100 % local.
Lexiane est un pipeline de traitement documentaire end-to-end, conçu pour les organisations qui ne peuvent pas laisser leurs données entre les mains d’un tiers. Ingestion, parsing, découpage sémantique, détection des données personnelles, enrichissement, indexation vectorielle, audit cryptographique : chaque étape s’exécute dans un seul binaire, sur votre infrastructure, sans appel réseau.
Le problème que vos données posent à la plupart des solutions IA
Les plateformes RAG et les outils d’IA du marché vous placent devant un choix structurellement défavorable : envoyer vos documents dans le cloud d’un éditeur tiers, ou renoncer à l’intelligence artificielle.
Ce choix est présenté comme un compromis technique. Il est en réalité un transfert de risque — juridique, réglementaire, stratégique. Vos procédures internes, vos contrats, vos données patients, vos rapports financiers, vos spécifications techniques : dès qu’ils quittent votre périmètre, vous perdez le contrôle de ce qui leur arrive.
Lexiane part d’un principe opposé : le traitement de vos données se fait là où elles sont, avec les garanties que vous avez définies — pas celles que votre fournisseur vous autorise.
Un pipeline de traitement documentaire complet, sans dépendance externe
Parsing natif de vos formats documentaires
Le premier maillon d’un traitement de données de qualité est la capacité à lire vos documents tels qu’ils sont, dans leurs formats de production. Le parseur de Lexiane est écrit en pur Rust — aucune dépendance Python, aucun service tiers, aucun appel réseau.
Formats supportés nativement :
| Format | Cas d’usage typiques |
|---|---|
| Rapports, contrats, spécifications, dossiers réglementaires | |
| Excel (.xlsx, .xls, .ods) | Tableaux de données, budgets, inventaires, référentiels |
| PowerPoint (.pptx) | Présentations, supports de formation, slides stratégiques |
| HTML | Pages intranet, exports de wikis, documentation web |
| Markdown | Documentation technique, bases de connaissances, notes structurées |
| Texte brut | Notes, emails exportés, journaux, données semi-structurées |
Un seul binaire lit, parse et indexe vos documents. Pas d’interpréteur Python à maintenir, pas de serveur secondaire à opérer, pas de surface d’attaque supplémentaire.
Découpage sémantique à granularité configurable
La qualité d’un traitement documentaire ne tient pas seulement à ce que vous lisez — elle tient à comment vous le découpez. Un mauvais découpage produit des fragments qui coupent les idées au milieu d’une phrase, séparent une question de sa réponse, ou brisent la cohérence d’un tableau.
Le moteur de chunking de Lexiane opère avec une précision configurable :
- Taille et chevauchement adaptés à la nature de votre corpus
- Respect des frontières linguistiques jusqu’au graphème Unicode — vos documents en français, arabe, chinois ou japonais sont découpés correctement
- Hiérarchie parent-enfant : chaque fragment conserve une référence à son contexte parent, récupérable à la génération pour restituer le passage complet
- Découpage sémantique récursif : le système respecte la structure du document — paragraphes, sections, listes — plutôt que de compter mécaniquement des caractères
Le résultat : des fragments qui font sens indépendamment, indexables avec précision, contextualisables à la restitution.
Enrichissement automatique avant indexation
Chaque fragment documentaire passe par une étape d’enrichissement avant vectorisation. L’objectif : augmenter la qualité de récupération en ajoutant à chaque segment les métadonnées qui le rendent plus précisément retrouvable.
Enrichissements appliqués :
- Nombre de tokens et de mots du segment
- Extraction automatique de mots-clés représentatifs
- Résumé du segment pour la recherche hybride
- Contenu augmenté (contexte du document parent injecté dans le chunk)
- Identifiants de traçabilité (document source, position, hash du contenu)
Ces enrichissements font partie intégrante du pipeline d’ingestion — ils s’appliquent à chaque document dès la première indexation, sans étape manuelle.
Extraction de graphe de connaissances (GraphRAG)
Pour les corpus riches en relations — documents réglementaires, archives de projets, bases de connaissances métier, rapports d’audit — une recherche vectorielle seule ne suffit pas. Elle retrouve des passages similaires. Elle ne comprend pas les liens entre les entités qui y sont mentionnées.
Le moteur GraphRAG de Lexiane extrait automatiquement les triplets de connaissance de vos documents — sujet, prédicat, objet — et les stocke dans un triplestore RDF persistant. La base ainsi construite comprend les relations entre personnes, organisations, projets, dates et réglementations.
Ce que cela rend possible :
“Quels fournisseurs sont mentionnés dans les audits de 2023 ET dans les contrats actifs ?”
“Quels projets sont liés à ce responsable et à quelle réglementation ?”
“Identifier les chaînes de dépendance entre les composants mentionnés dans ces 500 fiches techniques.”
La traversée multi-hop du graphe produit des informations que la recherche vectorielle seule ne peut pas structurellement atteindre.
Protection des données personnelles par architecture
Filtrage PII intégré dans le pipeline
Le filtre PII (Personally Identifiable Information) de Lexiane opère avant toute vectorisation, toute indexation, et tout appel à un modèle de langage. Aucune donnée sensible n’atteint votre vector store ou votre LLM sans avoir été traitée selon vos règles.
Données personnelles détectées :
| Type de donnée | Exemples |
|---|---|
| Adresses email | jean.dupont@entreprise.fr |
| Numéros de téléphone | Formats nationaux et internationaux |
| IBAN et coordonnées bancaires | FR76 1234 5678 9012 3456 7890 189 |
| Numéros de sécurité sociale | Formats français et européens |
| Adresses IP | IPv4 et IPv6 |
| Identifiants configurables | Selon votre référentiel métier |
Politiques de traitement configurables :
- Masquage typé — remplacement par un placeholder sémantique
[EMAIL],[IBAN],[TELEPHONE]: le type d’information reste lisible, la valeur disparaît - Suppression — retrait complet de la valeur du fragment
- Hachage — remplacement par l’empreinte cryptographique de la valeur : permet la cohérence des références sans exposer la donnée
Cette architecture garantit la conformité RGPD par construction et non par processus : la donnée n’atteint pas le système de stockage avant d’avoir été traitée. Ce n’est pas une règle de bonne conduite. C’est une contrainte mécanique du pipeline.
Traçabilité et audit cryptographique à chaque étape
Une chaîne d’intégrité SHA-256 inviolable
Chaque action du pipeline de traitement est enregistrée dans une chaîne d’audit cryptographique. Chaque entrée est signée par le hash SHA-256 de la précédente — toute modification ultérieure d’un événement est mathématiquement détectable.
Événements tracés dans la chaîne :
- Document soumis à l’ingestion (identifiant, hash du contenu, horodatage)
- Fragments créés et leurs paramètres de découpage
- Embeddings générés (modèle, dimension, date)
- Entités extraites pour le graphe de connaissances
- Données personnelles détectées et politique appliquée
- Requêtes utilisateurs et documents consultés
- Réponses produites et leurs sources
Ce n’est pas une fonctionnalité de journalisation. C’est une garantie d’intégrité structurelle : vous pouvez prouver à n’importe quel moment que le traitement s’est déroulé exactement comme enregistré, et qu’aucun enregistrement n’a été modifié après coup.
Pour un auditeur, un responsable conformité ou un régulateur, cette chaîne constitue une preuve technique indépendante de vos processus déclarés.
Évaluation de la qualité en sortie de pipeline
Des métriques mesurées, pas des suppositions
La qualité d’un pipeline de traitement documentaire ne se décrète pas à l’installation — elle se mesure en production, sur vos données réelles. Lexiane intègre des métriques d’évaluation RAGAS en sortie de pipeline :
- Fidélité : la réponse produite est-elle ancrée dans les sources récupérées ?
- Pertinence : les sources récupérées répondent-elles réellement à la question posée ?
- Précision du contexte : les fragments récupérés sont-ils spécifiquement pertinents ?
- Rappel du contexte : le pipeline a-t-il retrouvé l’ensemble des informations disponibles ?
Les guardrails d’entrée détectent les tentatives d’injection de prompt et les requêtes hors périmètre avant qu’elles n’atteignent le pipeline. Les guardrails de sortie vérifient la réponse produite avant transmission à l’utilisateur.
La porte de pertinence évalue le score de confiance global du contexte récupéré. Si les sources ne sont pas suffisamment fiables pour produire une réponse fondée, le système s’abstient — plutôt que de générer une réponse mal ancrée. C’est l’opposé de l’hallucination : un système qui sait quand il ne sait pas. Pour les cas où plusieurs itérations de récupération sont nécessaires, le RAG agentique automatise ce processus.
Lexiane comme pipeline de traitement de données autonome
Ces capacités ne sont pas réservées aux cas d’usage RAG conversationnel. Lexiane peut être déployé comme pipeline de traitement de données pur, indépendamment de toute interface de génération :
- Extraction et normalisation documentaire en masse sur vos archives existantes
- Détection et anonymisation PII sur un corpus avant migration ou archivage réglementaire
- Construction d’un graphe de connaissances à partir de vos documents de référence
- Audit cryptographique de l’ensemble de vos flux documentaires
- Indexation vectorielle de votre base pour une recherche sémantique sans LLM
La même rigueur architecturale, le même audit trail, la même protection des données — appliqués à vos flux de traitement existants, sans interface conversationnelle si vous n’en avez pas besoin.
Trois modes de déploiement, un seul pipeline
Air-gapped — souveraineté absolue
Parsing, chunking, enrichissement, filtrage PII, indexation vectorielle et construction du graphe : l’intégralité du pipeline s’exécute en local dans un seul binaire. Zéro appel réseau. Zéro donnée sortante. Déployable dans un réseau classifié, un datacenter souverain, ou un site industriel sans connectivité permanente.
Cloud — puissance maximale
Modèles d’embeddings et LLM cloud (OpenAI, Anthropic) activés via variable d’environnement. Le pipeline reste identique — seuls les adaptateurs changent. Si demain vous remplacez OpenAI par un modèle auto-hébergé, votre pipeline de traitement ne change pas d’une ligne.
Hybride — données sensibles sur site, génération dans le cloud
Les embeddings sont calculés localement sur vos documents. La génération est déléguée à un modèle cloud uniquement sur les fragments de contexte anonymisés. Vos documents sources ne sortent jamais. Le LLM cloud reçoit des extraits — pas vos fichiers.
Garanties techniques vérifiables
| Garantie | Mécanisme d’application |
|---|---|
| Aucune opération mémoire risquée dans le cœur | #![forbid(unsafe_code)] appliqué par le compilateur — pas par revue de code |
| Aucun chemin d’erreur ignorable | #[must_use] sur tous les résultats — un chemin ignoré est une erreur de compilation |
Aucun unwrap() / panic!() en production | Garanti par test automatisé en continu |
| Intégrité de la chaîne d’audit | SHA-256 chainé — toute modification est mathématiquement détectable |
| Validation des dépendances entre étapes | À l’assemblage, avant exécution — les erreurs de configuration n’atteignent pas le runtime |
| Zéro dépendance vendor dans le cœur certifié | Vérifié par test automatisé à la compilation |
1 254 tests automatisés passent en continu. 27 modules indépendants, chacun avec ses propres frontières de compilation. 25 interfaces d’abstraction définissent l’intégralité des points de contact entre le cœur et l’extérieur.
Ce que vos équipes gagnent concrètement
Pour votre RSSI Chaque donnée traitée est tracée. Chaque politique PII est appliquée mécaniquement, pas par convention. L’audit trail SHA-256 constitue une preuve technique indépendante de vos processus de traitement — consultable, exportable, inviolable.
Pour votre DPO La conformité RGPD n’est pas une case à cocher après déploiement. Elle est inscrite dans l’architecture : les données personnelles ne peuvent pas atteindre votre vector store ou votre LLM sans avoir été traitées selon vos règles. Le registre des traitements est auditable à partir de la chaîne cryptographique.
Pour votre CTO Un seul binaire, pas de runtime, pas de gestionnaire de paquets, pas de serveur secondaire. L’ensemble du pipeline — parsing, chunking, PII, embeddings, indexation — se déploie comme n’importe quel binaire Linux. Pas d’image Docker de 800 Mo. Pas de dépendances Python à maintenir. Une configuration TOML. C’est tout.
Pour vos équipes conformité dans les secteurs régulés Lexiane est le seul moteur de traitement documentaire IA conçu pour la certification. IEC 62304 Ed. 2 (publication prévue août 2026) introduira des exigences explicites sur les systèmes IA/ML dans les dispositifs médicaux. ISO 26262 pour l’automobile. Lexiane est compilable avec Ferrocene, le compilateur Rust qualifié ASIL D / SIL 4. Votre dossier de qualification remonte du binaire déployé jusqu’au compilateur utilisé pour le produire.
Parlons de votre corpus documentaire.
Chaque traitement de données a ses propres contraintes : format, volume, sensibilité, réglementation sectorielle, exigences d’auditabilité. Nous ne proposons pas de démonstration générique.
Nous proposons un échange sur votre cas concret : vos documents, vos contraintes, vos questions de conformité. Et une évaluation honnête de ce que Lexiane peut faire — y compris si la réponse est “pas maintenant” ou “pas comme ça”.
Demander l'accès au Core Auditable
Inscrivez-vous pour être notifié de l'ouverture du programme d'audit de notre Core. Conformément à notre politique de confidentialité, votre adresse professionnelle sera exclusivement dédiée à cette communication technique, sans aucun usage marketing ultérieur. Accès distribué via registre privé sécurisé.
Nous contacter