Ingeniería de Datos IA | Procesamiento Documental Soberano | Lexiane
Pipeline soberana de procesamiento documental: parsing Rust, chunking semántico, filtro PII, GraphRAG, auditoría SHA-256. Sin dependencia cloud.
Lexiane es un pipeline de procesamiento documental end-to-end, concebido para las organizaciones que no pueden dejar sus datos en manos de un tercero. Ingesta, parsing, chunking semántico, detección de datos personales, enriquecimiento, indexación vectorial, auditoría criptográfica: cada etapa se ejecuta en un único binario, en su infraestructura, sin llamadas de red.
El problema que sus datos plantean a la mayoría de las soluciones IA
Las plataformas RAG y las herramientas de IA del mercado le sitúan ante una elección estructuralmente desfavorable: enviar sus documentos a la nube de un editor tercero, o renunciar a la inteligencia artificial.
Esta elección se presenta como un compromiso técnico. En realidad es una transferencia de riesgo — jurídico, regulatorio, estratégico. Sus procedimientos internos, sus contratos, sus datos de pacientes, sus informes financieros, sus especificaciones técnicas: en cuanto salen de su perímetro, pierde el control sobre lo que les ocurre.
Lexiane parte del principio opuesto: el tratamiento de sus datos se realiza donde están, con las garantías que usted ha definido — no las que su proveedor le autoriza.
Un pipeline de procesamiento documental completo, sin dependencia externa
Parsing nativo de sus formatos documentales
El primer eslabón de un procesamiento de datos de calidad es la capacidad de leer sus documentos tal como son, en sus formatos de producción. El parser de Lexiane está escrito en puro Rust — sin dependencia Python, sin servicio tercero, sin llamadas de red.
Formatos soportados de forma nativa:
| Formato | Casos de uso típicos |
|---|---|
| Informes, contratos, especificaciones, expedientes regulatorios | |
| Excel (.xlsx, .xls, .ods) | Tablas de datos, presupuestos, inventarios, referenciales |
| PowerPoint (.pptx) | Presentaciones, materiales de formación, diapositivas estratégicas |
| HTML | Páginas de intranet, exportaciones de wikis, documentación web |
| Markdown | Documentación técnica, bases de conocimiento, notas estructuradas |
| Texto plano | Notas, emails exportados, registros, datos semi-estructurados |
Un único binario lee, parsea e indexa sus documentos. Sin intérprete Python que mantener, sin servidor secundario que operar, sin superficie de ataque adicional.
Chunking semántico con granularidad configurable
La calidad de un procesamiento documental no depende únicamente de lo que se lee — depende de cómo se trocea. Un mal troceo produce fragmentos que cortan las ideas en mitad de una frase, separan una pregunta de su respuesta, o rompen la coherencia de una tabla.
El motor de chunking de Lexiane opera con una precisión configurable:
- Tamaño y solapamiento adaptados a la naturaleza de su corpus
- Respeto de las fronteras lingüísticas hasta el grafema Unicode — sus documentos en español, árabe, chino o japonés se trocean correctamente
- Jerarquía padre-hijo: cada fragmento conserva una referencia a su contexto padre, recuperable en la generación para restituir el pasaje completo
- Chunking semántico recursivo: el sistema respeta la estructura del documento — párrafos, secciones, listas — en lugar de contar mecánicamente caracteres
El resultado: fragmentos que tienen sentido de forma independiente, indexables con precisión, contextualizables en la restitución.
Enriquecimiento automático antes de la indexación
Cada fragmento documental pasa por una etapa de enriquecimiento antes de la vectorización. El objetivo: aumentar la calidad de recuperación añadiendo a cada segmento los metadatos que lo hacen más precisamente recuperable.
Enriquecimientos aplicados:
- Número de tokens y palabras del segmento
- Extracción automática de palabras clave representativas
- Resumen del segmento para la búsqueda híbrida
- Contenido aumentado (contexto del documento padre inyectado en el chunk)
- Identificadores de trazabilidad (documento fuente, posición, hash del contenido)
Estos enriquecimientos forman parte integral del pipeline de ingesta — se aplican a cada documento desde la primera indexación, sin etapa manual.
Extracción de grafo de conocimiento (GraphRAG)
Para los corpus ricos en relaciones — documentos regulatorios, archivos de proyectos, bases de conocimiento de negocio, informes de auditoría — una búsqueda vectorial sola no es suficiente. Encuentra pasajes similares. No comprende los vínculos entre las entidades que se mencionan en ellos.
El motor GraphRAG de Lexiane extrae automáticamente los tripletes de conocimiento de sus documentos — sujeto, predicado, objeto — y los almacena en un triplestore RDF persistente. La base así construida comprende las relaciones entre personas, organizaciones, proyectos, fechas y normativas.
Lo que esto hace posible:
“¿Qué proveedores se mencionan en las auditorías de 2023 Y en los contratos activos?”
“¿Qué proyectos están vinculados a este responsable y a qué normativa?”
“Identificar las cadenas de dependencia entre los componentes mencionados en estas 500 fichas técnicas.”
El recorrido multi-hop del grafo produce información que la búsqueda vectorial sola no puede alcanzar estructuralmente.
Protección de datos personales por arquitectura
Filtrado PII integrado en el pipeline
El filtro PII (Personally Identifiable Information) de Lexiane opera antes de cualquier vectorización, cualquier indexación, y cualquier llamada a un modelo de lenguaje. Ningún dato sensible alcanza su vector store o su LLM sin haber sido tratado según sus reglas.
Datos personales detectados:
| Tipo de dato | Ejemplos |
|---|---|
| Direcciones de correo electrónico | juan.garcia@empresa.es |
| Números de teléfono | Formatos nacionales e internacionales |
| IBAN y datos bancarios | ES91 1234 5678 9012 3456 7890 |
| Números de seguridad social | Formatos españoles y europeos |
| Direcciones IP | IPv4 e IPv6 |
| Identificadores configurables | Según su referencial de negocio |
Políticas de tratamiento configurables:
- Enmascaramiento tipado — sustitución por un placeholder semántico
[EMAIL],[IBAN],[TELEFONO]: el tipo de información permanece legible, el valor desaparece - Supresión — eliminación completa del valor del fragmento
- Hash — sustitución por la huella criptográfica del valor: permite la coherencia de las referencias sin exponer el dato
Esta arquitectura garantiza el cumplimiento RGPD por construcción y no por proceso: el dato no alcanza el sistema de almacenamiento antes de haber sido tratado. No es una regla de buenas prácticas. Es una restricción mecánica del pipeline.
Trazabilidad y auditoría criptográfica en cada etapa
Una cadena de integridad SHA-256 inviolable
Cada acción del pipeline de tratamiento se registra en una cadena de auditoría criptográfica. Cada entrada está firmada por el hash SHA-256 de la anterior — cualquier modificación ulterior de un evento es matemáticamente detectable.
Eventos trazados en la cadena:
- Documento enviado a la ingesta (identificador, hash del contenido, marca de tiempo)
- Fragmentos creados y sus parámetros de troceo
- Embeddings generados (modelo, dimensión, fecha)
- Entidades extraídas para el grafo de conocimiento
- Datos personales detectados y política aplicada
- Peticiones de usuarios y documentos consultados
- Respuestas producidas y sus fuentes
No es una funcionalidad de registro. Es una garantía de integridad estructural: puede demostrar en cualquier momento que el tratamiento se desarrolló exactamente como se registró, y que ningún registro fue modificado a posteriori.
Para un auditor, un responsable de cumplimiento o un regulador, esta cadena constituye una prueba técnica independiente de sus procesos declarados.
Evaluación de la calidad a la salida del pipeline
Métricas medidas, no suposiciones
La calidad de un pipeline de procesamiento documental no se decreta en la instalación — se mide en producción, sobre sus datos reales. Lexiane integra métricas de evaluación RAGAS a la salida del pipeline:
- Fidelidad: ¿está la respuesta producida anclada en las fuentes recuperadas?
- Relevancia: ¿responden las fuentes recuperadas realmente a la pregunta formulada?
- Precisión del contexto: ¿son los fragmentos recuperados específicamente pertinentes?
- Recall del contexto: ¿ha recuperado el pipeline el conjunto de la información disponible?
Guardrails de entrada detectan los intentos de inyección de prompt y las peticiones fuera de perímetro antes de que alcancen el pipeline. Los guardrails de salida verifican la respuesta producida antes de transmitirla al usuario.
La puerta de relevancia evalúa la puntuación de confianza global del contexto recuperado. Si las fuentes no son suficientemente fiables para producir una respuesta fundamentada, el sistema se abstiene — en lugar de generar una respuesta mal anclada. Es lo contrario de la alucinación: un sistema que sabe cuándo no sabe. Para los casos que requieren varias iteraciones de recuperación, el RAG Agéntico automatiza este proceso.
Lexiane como pipeline de procesamiento de datos autónomo
Estas capacidades no están reservadas a los casos de uso RAG conversacional. Lexiane puede desplegarse como pipeline de procesamiento de datos puro, independientemente de cualquier interfaz de generación:
- Extracción y normalización documental en masa sobre sus archivos existentes
- Detección y anonimización PII sobre un corpus antes de migración o archivado regulatorio
- Construcción de un grafo de conocimiento a partir de sus documentos de referencia
- Auditoría criptográfica del conjunto de sus flujos documentales
- Indexación vectorial de su base para una búsqueda semántica sin LLM
El mismo rigor arquitectural, el mismo audit trail, la misma protección de datos — aplicados a sus flujos de tratamiento existentes, sin interfaz conversacional si no la necesita.
Tres modos de despliegue, un único pipeline
Air-gapped — soberanía absoluta
Parsing, chunking, enriquecimiento, filtrado PII, indexación vectorial y construcción del grafo: la totalidad del pipeline se ejecuta en local en un único binario. Cero llamadas de red. Cero datos salientes. Desplegable en una red clasificada, un datacenter soberano, o un sitio industrial sin conectividad permanente.
Cloud — potencia máxima
Modelos de embeddings y LLM cloud (OpenAI, Anthropic) activados mediante variable de entorno. El pipeline permanece idéntico — solo cambian los adaptadores. Si mañana sustituye OpenAI por un modelo auto-alojado, su pipeline de tratamiento no cambia ni una línea.
Híbrido — datos sensibles en sitio, generación en la nube
Los embeddings se calculan localmente sobre sus documentos. La generación se delega a un modelo cloud únicamente sobre los fragmentos de contexto anonimizados. Sus documentos fuente nunca salen. El LLM cloud recibe extractos — no sus archivos.
Garantías técnicas verificables
| Garantía | Mecanismo de aplicación |
|---|---|
| Ninguna operación de memoria arriesgada en el núcleo | #![forbid(unsafe_code)] aplicado por el compilador — no por revisión de código |
| Ningún camino de error ignorable | #[must_use] en todos los resultados — un camino ignorado es un error de compilación |
Ningún unwrap() / panic!() en producción | Garantizado por test automatizado continuo |
| Integridad de la cadena de auditoría | SHA-256 encadenado — cualquier modificación es matemáticamente detectable |
| Validación de las dependencias entre etapas | En el ensamblado, antes de la ejecución — los errores de configuración no alcanzan el runtime |
| Cero dependencias de proveedor en el núcleo certificado | Verificado por test automatizado en la compilación |
1 254 tests automatizados pasan de forma continua. 27 módulos independientes, cada uno con sus propias fronteras de compilación. 25 interfaces de abstracción definen la totalidad de los puntos de contacto entre el núcleo y el exterior.
Lo que sus equipos ganan de forma concreta
Para su CISO Cada dato tratado está trazado. Cada política PII se aplica mecánicamente, no por convención. El audit trail SHA-256 constituye una prueba técnica independiente de sus procesos de tratamiento — consultable, exportable, inviolable.
Para su DPO La conformidad RGPD no es una casilla que marcar tras el despliegue. Está inscrita en la arquitectura: los datos personales no pueden alcanzar su vector store o su LLM sin haber sido tratados según sus reglas. El registro de tratamientos es auditable a partir de la cadena criptográfica.
Para su CTO Un único binario, sin runtime, sin gestor de paquetes, sin servidor secundario. La totalidad del pipeline — parsing, chunking, PII, embeddings, indexación — se despliega como cualquier binario Linux. Sin imagen Docker de 800 MB. Sin dependencias Python que mantener. Una configuración TOML. Eso es todo.
Para sus equipos de cumplimiento en sectores regulados Lexiane es el único motor de procesamiento documental IA concebido para la certificación. IEC 62304 Ed. 2 (publicación prevista agosto 2026) introducirá exigencias explícitas sobre los sistemas IA/ML en los dispositivos médicos. ISO 26262 para el automóvil. Lexiane es compilable con Ferrocene, el compilador Rust cualificado ASIL D / SIL 4. Su expediente de cualificación se remonta desde el binario desplegado hasta el compilador utilizado para producirlo.
Hablemos de su corpus documental.
Cada tratamiento de datos tiene sus propias restricciones: formato, volumen, sensibilidad, regulación sectorial, exigencias de auditabilidad. No proponemos una demostración genérica.
Proponemos un intercambio sobre su caso concreto: sus documentos, sus restricciones, sus preguntas de cumplimiento. Y una evaluación honesta de lo que Lexiane puede hacer — incluso si la respuesta es “no ahora” o “no de esta manera”.
→ Contactar
Solicitar acceso al Core Auditable
Regístrese para ser notificado de la apertura del programa de auditoría de nuestro Core. De conformidad con nuestra política de privacidad, su dirección de correo electrónico profesional se utilizará exclusivamente para esta comunicación técnica, sin ningún uso de marketing posterior. Acceso distribuido a través de registro privado seguro.
Contáctenos