Cómo lo logramos

§ 02 · METODOLOGÍA

Campos de
Presión

La inteligencia de Lau IA no viene de un solo modelo haciendo todo. Viene de un sistema de agentes especializados que se coordinan como un campo de fuerzas: cada tarea acumula presión hasta que un agente la resuelve. Lo que sigue es cómo funciona — y la evidencia de que funciona.

Especificaciones 0×02

BenchmarkCUAD · 510 contratos

Agentes5 cadena + 8 campo

Categorías41 / 41 cubiertas

Precisión130 / 205 perfectas

vs. SOTA82% vs 48% AUPR

ValidaciónRodriguez, 2024

Capítulo 01 · El examen

El benchmark más exigente del mundo en análisis de contratos comerciales

CUAD (NeurIPS 2021): 510 contratos reales de la SEC, 41 categorías de cláusulas, anotados por 50+ abogados. La tarea — extraer el fragmento verbatim exacto para cada categoría, o determinar que no existe. El mejor modelo anterior (DeBERTa-xlarge, 900M parámetros) alcanzó 48% AUPR cubriendo solo el 37% de las categorías.

En 2021, un grupo de investigadores del Atticus Project publicó en NeurIPS el dataset que cambiaría el estándar de la industria: CUAD (Contract Understanding Atticus Dataset). La premisa era simple y brutalmente difícil: tomar 510 contratos comerciales reales —los mismos que aparecen en archivos públicos de la SEC, firmados por empresas Fortune 500, fondos de capital y compañías tecnológicas— y anotarlos a mano, cláusula por cláusula, con más de 50 abogados especializados.

El resultado fue el corpus más grande y riguroso de contratos legales anotados por expertos que existe. Más de 13.000 anotaciones. Cada anotación señala el fragmento exacto de texto que responde a una categoría específica — o confirma que esa cláusula no aparece en el contrato. No hay respuestas aproximadas. O encuentras el texto exacto, o no.

categorías de cláusulas que el sistema debe identificar en cada contrato Desde ley aplicable y no-competencia hasta cesión de propiedad intelectual, cláusulas de terminación anticipada, cambio de control y derechos de auditoría. Cada contrato puede tener cualquier combinación de ellas — o ninguna.

Las 41 categorías cubren prácticamente todo lo que un abogado corporativo necesita revisar antes de firmar o litigar. Y el reto no es solo encontrarlas — es encontrar el fragmento verbatim exacto que las sustenta. Una cláusula de terminación puede estar en el artículo 2, en el anexo D o distribuida en tres párrafos de una sección que no dice "terminación" en ningún lugar.

Las 41 categorías — en azul las de mayor impacto litigioso

Ley Aplicable No-Competencia Propiedad Intelectual Terminación anticipada Exclusividad Cambio de control Partes del contrato Fecha de inicio Fecha de expiración Renovación automática Anti-cesión Derechos de auditoría Nación más favorecida Mínimo comprometido Licencia de software Responsabilidad ilimitada Cap de responsabilidad Daños liquidados Duración de garantía Seguro requerido No-solicitar empleados Reparto de ingresos Restricción de precios Restricción de volumen Código en escrow Servicios post-término Covenant not to sue Tercero beneficiario Derecho de recompra (ROFR) Licencia ilimitada +11 más

Durante tres años, los mejores equipos del mundo intentaron resolver CUAD con los modelos más grandes disponibles. El resultado más destacado lo obtuvo DeBERTa-xlarge, un modelo de 900 millones de parámetros entrenado con fine-tuning supervisado sobre el propio dataset — es decir, con miles de ejemplos etiquetados de respuesta correcta. Su AUPR: 48.3%. En términos prácticos, fallaba en más de la mitad de las extracciones. Para un abogado, eso no es suficiente.

48%

AUPR del mejor modelo anterior · DeBERTa-xlarge · 900M parámetros AUPR (Area Under the Precision-Recall curve) mide cuántas extracciones son correctas y cuántas se pierden. 48% significa que el modelo más avanzado del mundo fallaba en más de la mitad de los casos — y aún así requería fine-tuning con datos etiquetados.

El problema no era solo de precisión. Era de cobertura. En condiciones reales — con tiempo y cómputo limitados — los métodos secuenciales solo llegaban a revisar el 37% de las 41 categorías antes de agotarse. El resto quedaba sin analizar. Un abogado que usa esa herramienta no sabe qué cláusulas no revisó.

Capítulo 02 · El sistema

Cinco agentes especializados que trabajan en cadena — coordinados por campo de presión

5 agentes en cadena — Cartógrafo → Localizador → Verificador → Reparador → Juez — coordinados por campo de presión: un gradiente de urgencia compartido que dirige el trabajo sin coordinador central ni cola.

La respuesta al problema de cobertura no era un modelo más grande. Era una arquitectura diferente. En lugar de un solo sistema que revisa cláusulas de a una, construimos una cadena de cinco agentes especializados: cada uno hace exactamente una cosa, la hace bien, y pasa el resultado al siguiente. La coordinación entre ellos no es secuencial — es un campo de presión.

La idea del campo de presión viene de la coordinación emergente en sistemas multi-agente (Rodriguez, 2024): cada tarea pendiente acumula un score de urgencia que sube con el tiempo. Los agentes leen ese gradiente compartido y se dirigen donde la presión es mayor — sin que nadie les asigne trabajo explícitamente, sin cola central, sin coordinador que se convierta en cuello de botella. Es la misma lógica con la que una colonia de hormigas distribuye trabajo sin un jefe.

Agente 01Cartógrafo

Primero, entender el terreno Antes de extraer una sola cláusula, el Cartógrafo lee el contrato completo en batches y construye un mapa: para cada una de las 41 categorías, identifica qué fragmentos del contrato son candidatos relevantes. No extrae nada — solo ubica. Es el paso que hace posible que los siguientes agentes no busquen a ciegas.

Agente 02Localizador

Extracción con reglas primero, LLM como desempate Usa el mapa del Cartógrafo para ir directamente a los fragmentos correctos. Divide el texto en oraciones individuales, aplica un sistema de scoring basado en reglas Python y keywords expandidas — y solo cuando hay empate o ambigüedad convoca al LLM. Esto reduce el costo computacional drásticamente sin sacrificar precisión.

Agente 03Verificador

La extracción existe, pero ¿es correcta? Todo lo que extrae el Localizador pasa por aquí. El Verificador hace primero checks deterministas sin LLM: ¿el texto existe verbatim en el contrato? ¿tiene longitud mínima razonable? ¿tiene coherencia básica? Solo si pasa esos filtros, una única llamada LLM valida la relevancia semántica en batch. Las extracciones que no pasan van al Reparador.

Agente 04Reparador

Lo que falla no se descarta — se repara Cuando el Verificador rechaza una extracción, el Reparador no la abandona. Tiene cuatro estrategias de rescate: búsqueda verbatim ampliada, búsqueda por relevancia semántica, detección de extracción incompleta (la cláusula está pero cortada), y expansión con sinónimos legales. Cada estrategia se aplica en orden hasta encontrar una respuesta válida o confirmar NOT_FOUND.

Agente 05Juez

El árbitro final que recupera lo que nadie encontró El Juez no revisa extracciones individuales — valida la coherencia del análisis completo. Su función más poderosa son los rescates cruzados: si una categoría quedó como NOT_FOUND pero una categoría semánticamente relacionada sí encontró texto relevante, el Juez intenta recuperarla. Es la diferencia entre un sistema que dice "no sé" y uno que dice "creo que está aquí".

El campo de presión bajo la cadena. Los cinco agentes de extracción operan sobre un Blackboard compartido coordinado por campo de presión. Ocho agentes de análisis adicionales —extracción de texto crudo, tablas, entidades, contexto del documento, patrones estadísticos, estructura de relaciones, control de calidad y estrategia— calculan continuamente un score de urgencia. El coordinador activa al agente con mayor presión en ese momento: sin cola central, sin cuello de botella, escalando linealmente con el número de agentes.

Capítulo 03 · La evidencia

Los números que ningún modelo había logrado — en zero-shot, sin fine-tuning

Zero-shot, sin fine-tuning, sobre 5 contratos reales CUAD.

Aplicamos el sistema a CUAD con 5 contratos reales, 41 categorías cada uno, y sin ningún tipo de entrenamiento supervisado sobre el dataset. Ni fine-tuning, ni RAG, ni ejemplos etiquetados. Solo el sistema de agentes sobre los contratos en crudo, con Llama 4 Scout como backbone a temperatura 0.1.

41/41

Cobertura total de categorías El sistema revisó el 100% de las 41 categorías en todos los contratos. Los métodos anteriores, con presupuesto de tiempo equivalente, solo llegaban al 37% — dejaban más de la mitad de las cláusulas sin analizar. La diferencia es el paralelismo: mientras un sistema secuencial avanza de a una categoría por tick, nuestro campo de presión despacha cuatro en paralelo.

130/205

Extracciones perfectas (Jaccard ≥ 0.99) De 205 categorías intentadas, 130 produjeron una extracción perfecta — texto que coincide palabra por palabra con la anotación del abogado experto, medido con Jaccard ≥ 0.99. El mejor método alternativo (jerárquico) logró 55 extracciones perfectas sobre solo 75 intentadas, porque nunca llegó a cubrir el resto. En términos absolutos: 2.4 veces más extracciones perfectas.

82%

AUPR logrado — vs. 48% del SOTA anterior 82% de AUPR contra el 48.3% de DeBERTa-xlarge — el modelo más grande que se había aplicado a este problema, entrenado con fine-tuning supervisado. Nuestro sistema lo supera en 34 puntos porcentuales sin ver un solo ejemplo etiquetado. Esto no es una mejora marginal. Es un cambio de clase: de un sistema que requiere datos para funcionar a uno que funciona sin ellos.

3.7×

Más rápido que cualquier método secuencial El análisis completo toma 11 ticks con 4 agentes en paralelo. Un sistema secuencial necesita 41 ticks para cubrir las mismas 41 categorías. Esto no es solo velocidad — es la diferencia entre un abogado que espera minutos y uno que espera horas. Y la ventaja crece: con 10 agentes, el tiempo se reduce ~10 veces.

Métrica

Mejor modelo anterior

Lau IA · Campos de Presión

AUPR

48.3% — DeBERTa-xlarge

82.0%

Cobertura

37% con budget limitado

100% siempre

Fine-tuning

Sí — miles de ejemplos

No — zero-shot puro

Extracciones perfectas

55 / 75 intentadas

130 / 205 intentadas

Tiempo de análisis

41 ticks (secuencial)

11 ticks (paralelo)

← Volver Agendar reunión →

Campos dePresión

El benchmark más exigente del mundo en análisis de contratos comerciales

Cinco agentes especializados que trabajan en cadena — coordinados por campo de presión

Los números que ningún modelo había logrado — en zero-shot, sin fine-tuning

Campos de
Presión