La inteligencia de Lau IA no viene de un solo modelo haciendo todo. Viene de un sistema de agentes especializados que se coordinan como un campo de fuerzas: cada tarea acumula presión hasta que un agente la resuelve. Lo que sigue es cómo funciona — y la evidencia de que funciona.
CUAD (NeurIPS 2021): 510 contratos reales de la SEC, 41 categorías de cláusulas, anotados por 50+ abogados. La tarea — extraer el fragmento verbatim exacto para cada categoría, o determinar que no existe. El mejor modelo anterior (DeBERTa-xlarge, 900M parámetros) alcanzó 48% AUPR cubriendo solo el 37% de las categorías.
En 2021, un grupo de investigadores del Atticus Project publicó en NeurIPS el dataset que cambiaría el estándar de la industria: CUAD (Contract Understanding Atticus Dataset). La premisa era simple y brutalmente difícil: tomar 510 contratos comerciales reales —los mismos que aparecen en archivos públicos de la SEC, firmados por empresas Fortune 500, fondos de capital y compañías tecnológicas— y anotarlos a mano, cláusula por cláusula, con más de 50 abogados especializados.
El resultado fue el corpus más grande y riguroso de contratos legales anotados por expertos que existe. Más de 13.000 anotaciones. Cada anotación señala el fragmento exacto de texto que responde a una categoría específica — o confirma que esa cláusula no aparece en el contrato. No hay respuestas aproximadas. O encuentras el texto exacto, o no.
Las 41 categorías cubren prácticamente todo lo que un abogado corporativo necesita revisar antes de firmar o litigar. Y el reto no es solo encontrarlas — es encontrar el fragmento verbatim exacto que las sustenta. Una cláusula de terminación puede estar en el artículo 2, en el anexo D o distribuida en tres párrafos de una sección que no dice "terminación" en ningún lugar.
Durante tres años, los mejores equipos del mundo intentaron resolver CUAD con los modelos más grandes disponibles. El resultado más destacado lo obtuvo DeBERTa-xlarge, un modelo de 900 millones de parámetros entrenado con fine-tuning supervisado sobre el propio dataset — es decir, con miles de ejemplos etiquetados de respuesta correcta. Su AUPR: 48.3%. En términos prácticos, fallaba en más de la mitad de las extracciones. Para un abogado, eso no es suficiente.
El problema no era solo de precisión. Era de cobertura. En condiciones reales — con tiempo y cómputo limitados — los métodos secuenciales solo llegaban a revisar el 37% de las 41 categorías antes de agotarse. El resto quedaba sin analizar. Un abogado que usa esa herramienta no sabe qué cláusulas no revisó.
5 agentes en cadena — Cartógrafo → Localizador → Verificador → Reparador → Juez — coordinados por campo de presión: un gradiente de urgencia compartido que dirige el trabajo sin coordinador central ni cola.
La respuesta al problema de cobertura no era un modelo más grande. Era una arquitectura diferente. En lugar de un solo sistema que revisa cláusulas de a una, construimos una cadena de cinco agentes especializados: cada uno hace exactamente una cosa, la hace bien, y pasa el resultado al siguiente. La coordinación entre ellos no es secuencial — es un campo de presión.
La idea del campo de presión viene de la coordinación emergente en sistemas multi-agente (Rodriguez, 2024): cada tarea pendiente acumula un score de urgencia que sube con el tiempo. Los agentes leen ese gradiente compartido y se dirigen donde la presión es mayor — sin que nadie les asigne trabajo explícitamente, sin cola central, sin coordinador que se convierta en cuello de botella. Es la misma lógica con la que una colonia de hormigas distribuye trabajo sin un jefe.
El campo de presión bajo la cadena. Los cinco agentes de extracción operan sobre un Blackboard compartido coordinado por campo de presión. Ocho agentes de análisis adicionales —extracción de texto crudo, tablas, entidades, contexto del documento, patrones estadísticos, estructura de relaciones, control de calidad y estrategia— calculan continuamente un score de urgencia. El coordinador activa al agente con mayor presión en ese momento: sin cola central, sin cuello de botella, escalando linealmente con el número de agentes.
Zero-shot, sin fine-tuning, sobre 5 contratos reales CUAD.
Aplicamos el sistema a CUAD con 5 contratos reales, 41 categorías cada uno, y sin ningún tipo de entrenamiento supervisado sobre el dataset. Ni fine-tuning, ni RAG, ni ejemplos etiquetados. Solo el sistema de agentes sobre los contratos en crudo, con Llama 4 Scout como backbone a temperatura 0.1.