RAG privé & chatbot local | Assistant IA sur mesure

Les organisations qui traitent des données sensibles font face à une contradiction apparente : les systèmes d’intelligence artificielle les plus capables supposent une connexion à des services cloud, tandis que leurs contraintes réglementaires, opérationnelles, ou stratégiques imposent que leurs données restent en local. La plupart des solutions proposent de résoudre cette contradiction par un contrat — une clause de confidentialité, un engagement de non-utilisation des données, un label de conformité.

Lexiane la résout par l’architecture.

En mode RAG privé, l’intégralité du traitement documentaire — parsing, découpage, vectorisation, inférence LLM, stockage, récupération, génération — s’exécute dans un seul binaire, sur votre infrastructure, sans qu’un seul octet de vos documents ne franchisse votre périmètre réseau. Ce n’est pas une politique. C’est une propriété physique du système.

Ce que “privé” veut réellement dire

Le marché de l’IA a progressivement dilué le sens du mot “privé”. Il est utile de rétablir des distinctions précises, car elles ont des conséquences juridiques, opérationnelles, et réglementaires concrètes.

Solution cloud avec engagements de confidentialité. Vos données sont traitées sur l’infrastructure d’un prestataire tiers — dans sa zone géographique, sur ses serveurs, par ses modèles. Le prestataire s’engage contractuellement à ne pas utiliser vos données pour entraîner ses modèles, à les conserver dans une région définie, à les supprimer sur demande. La garantie repose sur la confiance dans le respect du contrat, sur la capacité de l’audit à détecter une violation, et sur la stabilité des conditions d’utilisation dans le temps.

Solution on-premise avec appels d’inférence externes. L’infrastructure est dans votre datacenter. Mais le modèle de langage est hébergé sur une API externe — OpenAI, Anthropic, ou un service cloud de votre fournisseur de solution. Vos documents sont découpés et vectorisés en local, mais les fragments de contexte sont transmis au LLM externe à chaque génération. Les données ne résident pas chez un tiers, mais elles y transitent à chaque requête.

Vrai air-gapped — aucun flux sortant. L’infrastructure est dans votre périmètre. Le modèle de langage tourne dans votre périmètre. Les embeddings sont calculés dans votre périmètre. Le stockage vectoriel est dans votre périmètre. Il n’y a pas d’appel réseau sortant — pas parce qu’un pare-feu le bloque, mais parce que le système n’en effectue structurellement aucun. Vos données ne peuvent pas quitter votre périmètre, même en cas d’erreur de configuration du pare-feu.

Le RAG privé de Lexiane est la troisième catégorie. La garantie n’est pas contractuelle. Elle est architecturale — et vérifiable.

La pile locale complète

Un RAG véritablement privé requiert que chaque composant du pipeline dispose d’une implémentation locale. Il ne suffit pas de stocker les données en local si l’inférence appelle un service externe. Il ne suffit pas d’avoir un LLM local si les embeddings sont calculés via une API cloud. Lexiane est le seul moteur RAG qui compile l’ensemble de la pile dans un seul binaire.

Inférence LLM locale — Mistral.rs

Mistral.rs est un moteur d’inférence LLM haute performance écrit en Rust, compilé directement dans le binaire Lexiane. Il n’y a pas de processus Ollama en parallèle, pas de serveur vLLM séparé, pas d’appel HTTP interne — l’inférence est dans le binaire, au même titre que le reste du pipeline.

Mistral.rs supporte les modèles de la famille Mistral, LLaMA 3, Phi, et leurs dérivés quantifiés (GGUF, GGML). La quantification permet d’exécuter des modèles 7B à 13B paramètres sur des serveurs sans GPU dédié — avec des performances de génération satisfaisantes pour la majorité des cas d’usage documentaires. Avec un GPU NVIDIA ou AMD, les mêmes modèles atteignent des débits de génération comparables à des APIs cloud standard.

Le choix du modèle est une décision de configuration, pas de code. Changer de modèle local ne modifie pas le pipeline — il modifie le fichier TOML et les fichiers de modèles chargés au démarrage.

Calcul des embeddings — Candle

Candle est le framework de machine learning de Hugging Face, écrit en Rust, compilé dans le même binaire. Il génère les représentations vectorielles des documents et des requêtes entièrement en local. Les modèles d’embeddings — E5-multilingual, BAAI/bge, ou tout modèle compatible — sont chargés depuis le système de fichiers local.

La génération d’embeddings en local présente un avantage opérationnel souvent négligé : elle est déterministe et stable. Les modèles cloud d’embeddings peuvent être mis à jour unilatéralement par leur fournisseur, ce qui invalide les embeddings précédemment calculés et nécessite une réindexation complète du corpus. Avec Candle, le modèle est figé dans votre infrastructure — il évolue quand vous le décidez, pas quand votre fournisseur publie une mise à jour.

Parsing documentaire natif

Le parseur documentaire de Lexiane est pur Rust. Il ne fait appel à aucune bibliothèque Python, à aucun service externe, à aucun processus secondaire. PDF, Excel (.xlsx, .xls, .ods), PowerPoint (.pptx), HTML, Markdown, texte brut : tous les formats sont traités dans le même binaire, par le même processus, sans réseau.

Stockage vectoriel local

Trois options de stockage vectoriel local selon les contraintes de volume et d’infrastructure existante :

SQLite — pour les déploiements embarqués ou les corpus de taille modérée. Zéro infrastructure additionnelle, zéro latence réseau, zéro administration. Le vector store est un fichier sur votre système de fichiers.

pgvector — extension PostgreSQL pour les organisations qui disposent déjà d’un cluster PostgreSQL dans leur périmètre. L’index vectoriel coexiste avec vos données relationnelles dans le même cluster — une seule infrastructure à administrer, à sauvegarder, et à auditer.

Qdrant — base vectorielle dédiée pour les corpus volumineux nécessitant des performances d’indexation et de récupération optimisées à grande échelle. Déployée dans votre infrastructure, elle reste dans votre périmètre.

Recherche hybride locale — Tantivy

L’index sparse Tantivy (BM25) est embarqué dans le binaire. La recherche hybride — vectorielle dense par similarité sémantique, et lexicale sparse par correspondance de termes — s’exécute entièrement en local. Aucune infrastructure de recherche externe (Elasticsearch, OpenSearch) n’est nécessaire.

La fusion des deux modalités par Reciprocal Rank Fusion assure que ni les correspondances sémantiques ni les correspondances lexicales exactes ne sont manquées — sans appel réseau.

Ce que vous déployez réellement

Un binaire statique Linux. Un fichier de configuration TOML. Des fichiers de modèles pré-téléchargés. C’est tout.

Pas d’interpréteur Python. Pas de gestionnaire de paquets. Pas de machine virtuelle. Pas de processus secondaire. Pas de service de découverte. Pas de registre de conteneurs à contacter. Le système est opérationnel dans un réseau totalement isolé, sans aucun accès internet, dès le premier démarrage.

Les couches de protection des données

La résidence locale des données est nécessaire mais pas suffisante. Lexiane y ajoute plusieurs couches de protection qui opèrent sur les données même dans le périmètre local — contre les fuites internes, les accès non autorisés, et les comportements du système qui pourraient exposer des informations sensibles.

Filtrage PII avant toute vectorisation

Le filtre de données personnelles opère en première position dans le pipeline d’ingestion — avant le découpage sémantique, avant le calcul des embeddings, avant l’indexation. Les données personnelles détectées dans vos documents sont traitées selon les politiques que vous définissez par catégorie :

Catégorie	Exemple	Politique disponible
Adresses électroniques	`jean.dupont@entreprise.fr`	Masquage `[EMAIL]` · Suppression · Hachage
Numéros de téléphone	`+33 6 12 34 56 78`	Masquage `[TELEPHONE]` · Suppression · Hachage
IBAN	`FR76 1234...`	Masquage `[IBAN]` · Suppression · Hachage
Numéros de sécurité sociale	`1 85 04 75 123 456 78`	Masquage `[NIR]` · Suppression · Hachage
Adresses IP	`192.168.1.42`	Masquage `[IP]` · Suppression · Hachage

Le masquage typé conserve le type de l’information — ce qui préserve la cohérence sémantique du document pour la recherche — tout en rendant la valeur inaccessible dans le vector store, dans les réponses générées, et dans les logs.

La politique appliquée est enregistrée dans l’audit trail pour chaque document traité.

Contrôle d’accès documentaire avant génération

Dans un déploiement partagé entre plusieurs équipes ou plusieurs niveaux de sensibilité, la question de qui peut accéder à quoi se pose au niveau de la récupération — pas seulement au niveau de l’interface.

Le port AccessControl filtre les résultats de récupération selon les droits de l’utilisateur requérant avant que le contexte ne soit transmis au LLM. Un document auquel un utilisateur n’a pas accès n’est pas transmis comme contexte de génération — même s’il est présent dans le vector store et sémantiquement pertinent à la requête.

Cette position dans le pipeline est critique : un contrôle d’accès appliqué uniquement sur l’interface utilisateur laisse des documents confidentiels traverser le modèle de langage. Un LLM ayant reçu un document dans son contexte peut en révéler le contenu de façon indirecte, même si la réponse semble ne pas y faire directement référence. Lexiane coupe ce vecteur en amont.

Deux modèles de contrôle d’accès sont supportés :

RBAC — les droits sont définis par le rôle de l’utilisateur dans l’organisation
ABAC — les droits sont définis par des attributs documentaires : niveau de classification, département propriétaire, date de publication, périmètre projet

Audit trail SHA-256 — sous votre contrôle

La chaîne d’audit cryptographique enregistre chaque action du pipeline dans votre infrastructure — pas dans un service de logging externe, pas chez un prestataire tiers. Le registre vous appartient intégralement.

Chaque entrée est signée par le hash SHA-256 de la précédente. Toute modification rétrospective brise la chaîne et est mathématiquement détectable. En cas d’incident — accès non autorisé, requête hors périmètre, tentative d’injection — la reconstruction forensique complète est possible à partir de la chaîne : qui a accédé à quoi, à quel moment, avec quel résultat.

Guardrails d’entrée et de sortie

Les mécanismes de protection contre l’injection de prompt (InputGuardrail) et de validation des réponses (OutputGuardrail) opèrent entièrement en local. Une requête malveillante est bloquée avant de solliciter le LLM local. Une réponse qui incorporerait des données sensibles ou qui sortirait du périmètre défini est interceptée avant d’atteindre l’utilisateur. Aucun de ces traitements ne nécessite un appel réseau.

Pour qui est le RAG privé

Défense et renseignement

Les organisations de défense et de renseignement opèrent dans des environnements où la confidentialité des données n’est pas relative — elle est absolue. Un document classifié qui transite par un service cloud, même momentanément, même chiffré, constitue une violation potentielle des règles de sécurité opérationnelle. La question n’est pas de savoir si le prestataire est de confiance. C’est que le transit lui-même est inacceptable.

Lexiane se déploie dans un réseau totalement isolé — SCIF, réseau classifié, datacenter souverain — sans aucune exigence de connectivité. Les analystes interrogent leurs corpus documentaires sensibles avec les capacités d’un LLM de production, sans qu’une donnée ne franchisse le périmètre de sécurité. L’audit trail SHA-256 enregistre chaque accès avec une traçabilité cryptographique satisfaisant aux exigences de traçabilité les plus strictes.

Santé et dispositifs médicaux

Les données de santé sont soumises aux réglementations les plus strictes en matière de protection — RGPD, référentiel HDS (Hébergement de Données de Santé) en France, directives européennes sur les données de santé. Ces réglementations imposent non seulement une localisation des données, mais une certification des hébergeurs et des traitements.

Un établissement de santé ou un fabricant de dispositifs médicaux qui souhaite déployer un assistant documentaire sur des dossiers patients, des données d’essais cliniques, ou des documents de pharmacovigilance ne peut pas s’appuyer sur une API cloud non certifiée HDS. Le RAG privé de Lexiane traite ces données entièrement en local — dans votre infrastructure, sous votre responsabilité de traitement, sans prestataire tiers interposé.

La dimension certification est également pertinente : IEC 62304 Ed. 2, dont la publication est prévue pour août 2026, introduira des exigences sur les logiciels embarquant de l’IA. Lexiane est le seul moteur RAG conçu pour répondre à ce référentiel de certification — avec un noyau #![forbid(unsafe_code)] et une compatibilité Ferrocene.

Finance et banques centrales

Les institutions financières sont soumises à des obligations de localisation des données, de traçabilité des décisions, et de résilience opérationnelle — RGPD, DORA, réglementations prudentielles nationales. Confier le traitement de documents internes sensibles à un LLM cloud externe n’est pas seulement une question de préférence : c’est souvent une question de conformité réglementaire dont le non-respect engage la responsabilité des dirigeants.

Le RAG privé de Lexiane permet de déployer un assistant documentaire sur des corpus réglementaires, des procédures internes, des rapports de risque, des dossiers de crédit — entièrement en local, avec une traçabilité cryptographique de chaque accès, et un filtrage PII qui protège les données personnelles des clients avant toute vectorisation.

Secteur public et administrations

Les administrations publiques font face à des exigences croissantes de souveraineté numérique — NIS2, RGPD, orientations vers des solutions qualifiées SecNumCloud. Le traitement de données de citoyens, de documents sensibles, ou d’informations relevant du secret professionnel sur des infrastructures cloud étrangères pose des questions juridiques et stratégiques que les administrations ne peuvent plus ignorer.

Un déploiement air-gapped de Lexiane répond à ces exigences par nature : il n’y a pas de flux de données vers un prestataire tiers, pas de dépendance à une infrastructure cloud, pas de risque de transfert de données hors du territoire national. La souveraineté numérique n’est pas une politique déclarée — elle est une propriété physique du déploiement.

Industrie et systèmes embarqués

Les environnements industriels partagent avec les environnements classifiés une contrainte structurelle : l’absence fréquente de connectivité réseau permanente. Un site de production isolé, une plateforme offshore, un équipement embarqué dans un véhicule ou un aéronef — ces systèmes ne peuvent pas dépendre d’une API cloud pour fonctionner.

Lexiane tourne en binaire statique sans dépendances réseau. Il peut répondre à des requêtes sur des manuels techniques, des procédures de maintenance, des bases de connaissances produit — dans un véhicule, sur une ligne de production, sur un équipement industriel isolé. Son absence de garbage collector garantit un comportement temporel déterministe, compatible avec les exigences des systèmes temps-réel.

Ce que le RAG privé change pour vos équipes

Pour votre RSSI

La surface d’attaque liée au traitement des données est réduite à votre périmètre physique. Il n’y a pas de flux de données sortants à surveiller, pas d’API externe à auditer, pas de prestataire tiers dont la politique de sécurité doit être vérifiée. La cartographie des risques liés au système IA est délimitée par votre infrastructure existante.

Pour votre DPO

La conformité RGPD ne repose pas sur un contrat avec un sous-traitant de traitement. Elle est garantie par l’architecture : les données personnelles ne peuvent pas quitter votre périmètre. Le registre des traitements se réduit à vos propres systèmes — aucune déclaration de transfert, aucun article 28 avec un prestataire cloud IA, aucun risque de transfert hors UE lié à l’inférence.

Pour vos auditeurs

La preuve de confidentialité des données est architecturale, pas contractuelle. Un auditeur peut vérifier, à l’inspection de la configuration du système, qu’aucun adaptateur réseau externe n’est activé. La chaîne d’audit SHA-256 prouve que chaque document a été traité conformément aux politiques définies. Le filtrage PII est enregistré pour chaque document ingéré.

Pour votre CTO

Un seul binaire à déployer, à maintenir, et à auditer. Pas de stack d’inférence séparé, pas de service d’embeddings externe, pas de pipeline de synchronisation entre composants distribués. La réduction de la complexité opérationnelle est directement proportionnelle à la réduction de la surface d’attaque.

Ce que vous abandonnez en choisissant le RAG privé — et comment y répondre

Toute décision d’architecture a des contreparties. La transparence sur ces contreparties est nécessaire pour faire un choix éclairé.

La capacité de raisonnement des meilleurs modèles cloud. GPT-4o, Claude Opus, Gemini Ultra : les modèles de pointe des grands fournisseurs offrent des capacités de raisonnement que les modèles locaux 7B-13B n’atteignent pas pour toutes les tâches. Pour des questions documentaires directes, des résumés, des extractions structurées — les modèles locaux sont tout à fait compétents. Pour des tâches de raisonnement complexe ou de synthèse de très longues chaînes de documents, la différence peut être perceptible. Pour ces analyses complexes, le RAG agentique offre une alternative locale : en multipliant les passes de récupération ciblée, il compense partiellement l’écart de raisonnement sans recourir à un modèle cloud.

Réponse : La configuration hybride de Lexiane permet de conserver les embeddings et le stockage en local — les données sources ne sortent jamais — tout en déléguant la génération à un LLM cloud sur des fragments de contexte anonymisés. Vos documents bruts restent dans votre périmètre. Le LLM cloud reçoit des extraits.

La vitesse de génération sans GPU dédié. Un LLM 7B quantifié sur CPU génère entre 5 et 15 tokens par seconde selon le matériel — perceptible sur des réponses longues, acceptable sur des requêtes documentaires standard. Avec un GPU NVIDIA ou AMD, le même modèle atteint 40 à 80 tokens par seconde.

Réponse : Pour les déploiements où la latence de génération est critique, un GPU est recommandé. Pour les cas d’usage asynchrones — extraction en batch, analyse de corpus, génération différée — le CPU est suffisant.

La mise à jour des modèles. Les modèles cloud sont mis à jour automatiquement par les fournisseurs — ce qui apporte régulièrement des améliorations de performance. Les modèles locaux évoluent quand vous décidez de les mettre à jour — ce qui est une contrainte opérationnelle, mais aussi une garantie de stabilité comportementale.

Réponse : L’écosystème des modèles open-source (Mistral, LLaMA, Phi) progresse rapidement. La mise à jour d’un modèle local se traduit par un remplacement de fichiers et un redémarrage du service — sans modification du pipeline, sans réindexation du corpus.

Déployer votre RAG privé

La configuration de référence air-gapped

Lexiane est livré avec une configuration de référence air-gapped complète et compilable — un projet réel, pas un exemple de documentation. Cette configuration inclut le fichier TOML de référence, les variables d’environnement documentées, les dépendances explicitement listées, et les instructions de pré-téléchargement des modèles.

Migrer du cloud vers le RAG privé

L’architecture à la carte de Lexiane rend cette migration structurellement simple. Si vous avez démarré avec une configuration cloud — OpenAI pour les embeddings et la génération — la migration vers le RAG privé se traduit par le remplacement des adaptateurs cloud par leurs équivalents locaux dans le fichier de configuration. Le pipeline ne change pas. La logique métier ne change pas.

La seule opération substantielle : recalculer les embeddings de votre corpus avec le modèle local, puisque les embeddings OpenAI et les embeddings Candle ne sont pas comparables. Cette réindexation est une opération planifiable, sans interruption de service sur la version cloud pendant la transition.

Prérequis matériels

Configuration	CPU	RAM	GPU	Cas d’usage
Embarqué / edge	4 cœurs ARM64	8 Go	Non	Corpus < 10 000 documents, requêtes occasionnelles
Serveur sans GPU	8 cœurs x86_64	32 Go	Non	Corpus moyen, génération asynchrone acceptable
Serveur avec GPU	8 cœurs x86_64	32 Go	NVIDIA 16 Go VRAM	Corpus volumineux, génération temps réel
Infrastructure existante	Votre cluster PostgreSQL	—	Selon charge	pgvector intégré dans votre stack

Questions fréquentes

Peut-on garantir qu’aucun log ou télémétrie ne sort du périmètre ? Lexiane n’embarque aucun mécanisme de télémétrie. Il n’y a pas d’appel home, pas de collecte de métriques d’usage, pas de signalement d’erreurs vers un service externe. Les logs applicatifs passent par le framework tracing — configurables, filtrables, et dirigés vers vos systèmes de collecte internes. Aucune émission de donnée vers l’extérieur n’est possible dans la configuration air-gapped.

Les modèles Mistral.rs peuvent-ils être remplacés par des modèles maison ou des modèles spécialisés ? Oui. Le port LLMEngine est une interface d’abstraction. Tout modèle compatible avec les formats supportés par Mistral.rs peut être utilisé. Si votre organisation a entraîné ou fine-tuné un modèle spécialisé sur votre domaine — droit, médecine, ingénierie —, il peut remplacer le modèle par défaut sans modification du pipeline.

Comment gérer les mises à jour de sécurité des modèles dans un environnement air-gapped ? Les modèles sont des fichiers statiques chargés au démarrage. Une mise à jour se traduit par un remplacement de fichiers sur votre infrastructure — opération planifiable, réversible, sans connectivité externe. Pour les mises à jour du binaire Lexiane lui-même, le processus est identique : transfert du binaire via les canaux sécurisés de votre politique de mise à jour logicielle.

Le RAG privé supporte-t-il le streaming des réponses ? Oui. Le serveur HTTP intégré expose une interface SSE (Server-Sent Events) qui transmet les réponses token par token — y compris en mode d’inférence locale. L’expérience utilisateur est comparable à celle d’une API cloud en termes de fluidité perçue.

Comment intégrer Lexiane dans un environnement air-gapped qui n’autorise pas les binaires non signés ? Lexiane peut être compilé depuis son code source dans votre propre chaîne de build, dans votre périmètre, avec votre toolchain qualifiée — y compris Ferrocene si votre politique de certification l’impose. Le binaire produit est signé par votre propre infrastructure de signature de code, selon vos politiques internes.

Peut-on utiliser Lexiane comme pipeline de traitement de données pur, sans interface conversationnelle ? Oui. Lexiane peut être déployé sans interface de génération — uniquement pour l’ingestion, le filtrage PII, l’indexation vectorielle, et la construction du graphe de connaissances. Le pipeline de traitement est indépendant de la couche de génération. C’est le mode adapté à la constitution d’une base documentaire structurée, avant de décider comment l’interroger.

Parlons de votre périmètre.

Chaque déploiement de RAG privé a ses contraintes spécifiques : classification des données, référentiel de conformité applicable, infrastructure existante, volume documentaire, exigences de performance. Nous ne proposons pas de configuration standard pour des contraintes qui ne le sont pas.

Nous proposons un échange sur votre environnement concret — vos données, votre infrastructure, vos obligations réglementaires — et la configuration de RAG privé qui y correspond.

Ce que vous pouvez attendre :

Une réponse sous 48h ouvrées
Un interlocuteur technique qui connaît les contraintes des environnements air-gapped, des secteurs régulés, et de la certification logicielle
Une évaluation honnête de l’adéquation entre votre besoin et le RAG privé Lexiane — y compris si la configuration hybride est plus pertinente pour votre cas.

RAG privé & chatbot local | Assistant IA sur mesure | Lexiane