38 min read

Qué tests de IA son relevantes para un abogado

Analizamos 5 tests que pueden ayudar a elegir la mejor IA para tareas legales; y actualidad del 8 al 14 de diciembre de 2025 👾
Qué tests de IA son relevantes para un abogado
Photo by Towfiqu barbhuiya / Unsplash
CALENDARIO de próximos CURSOS 😄

Hablamos mucho de cuál es el mejor modelo de IA para una cuestión u otra, pero para ello también hay que tener en cuenta los tests o evaluaciones que analizan esos modelos y crean los rankings que a todas horas inundan las redes.

¿El problema? Solo Artificial Analysis, quizá la web de referencia en estar al día de evaluaciones de IA y sus resultados, recopila información de 18 tests 😅

¿Son todos útiles para un abogado que quiera saber qué modelo redacta mejor, alucina menos o puede procesar más documentación? No, ya que cada uno está pensado para diferentes finalidades.

Por tanto, veamos los 5 tests o evaluaciones de modelos de IA más relevantes para un abogado y qué modelos destacan ahora mismo en cada uno de ellos.

1. GDPval-AA

Quizá es el test o benchmark más directamente relevante para la abogacía. GDPval incluye 1.320 tareas especializadas (220 en el conjunto gold de código abierto), elaboradas y validadas por profesionales experimentados con más de 14 años de experiencia en promedio.

Las tareas incluyen productos de trabajo reales como escritos legales (legal briefs), planos de ingeniería, conversaciones de atención al cliente o planes de cuidados de enfermería.

Las tareas legales de GDPval piden al modelo leer, sintetizar y producir documentos o análisis accionables que reflejan procedimientos formales.

El enfoque de GDPval es la calidad del resultado: claridad, finalización y corrección según las expectativas del profesional, en lugar de precisión limitada en pequeños ítems.

Un escenario típico incluye instrucciones como crear un memorándum legal comprehensivo que aborde si las acciones de YouTube violan alguna ley o regulación aplicable, en el contexto de recolección de datos personales de menores.

Top 3 actual (global):

1.- GPT 5.2 (High)

2.- Claude Opus 4.5 (también variantes Extended Thinking y API)

3.- GPT 5.2 (Medium)

Mejor modelo de pesos abiertos: GLM 4.7

IMPORTANTE: si los resultados se analizan apartado por apartado (en función de especialidades, el resultado puede variar.

2. AA-Omniscience

Este benchmark es útil para evaluar la fiabilidad del conocimiento jurídico y la propensión a las alucinaciones.

Está formado por 6.000 preguntas a través de 42 temas dentro de 6 dominios: 'Business', 'Humanities & Social Sciences', 'Health', 'Law', 'Software Engineering', y 'Science, Engineering & Mathematics'. También incluye 89 sub-temas incluyendo Políticas Públicas, Fiscalidad, y más.

Es útil para abogados ya que las respuestas incorrectas son penalizadas en las métricas del Knowledge Reliability Index para castigar las alucinaciones.

Entre las métricas relevantes están:

  • Accuracy: porcentaje de respuestas correctas.
  • Hallucination Rate: porcentaje de respuestas incorrectas cuando el modelo debería haberse abstenido.
  • Omniscience Index: +1 por correcta, -1 por incorrecta, 0 por abstención.

Top 3 actual (global):

1.- Gemini 3 Pro

2.- Claude Opus 4.5

3.- Gemini 3 Flash

Mejor modelo de pesos abiertos: DeepSeek V3.2

IMPORTANTE: si los resultados se analizan apartado por apartado (en función de especialidades, el resultado puede variar.

3. AA-LCR (Long Context Reasoning)

Este test es muy interesante para cuando toca revisar documentos legales extensos, contratos o hacer due diligence.

AA-LCR comprende 100 preguntas a través de 7 tipos de documentos de solo texto: Company Reports, Industry Reports, Government Consultations, Academia, Legal, Marketing Materials y Survey Reports.

Además, múltiples documentos independientes, formando un Document Set con una longitud total de casi 100 mil tokens se pasan como contexto para cada pregunta.

A diferencia de tareas sintéticas de contexto largo como Needle in the Haystack, AA-LCR está diseñado para replicar tareas de razonamiento reales que los trabajadores del conocimiento esperan que los modelos de lenguaje realicen.

Además, los escenarios incluyen el seguimiento de entidades y relaciones a través de documentos legales.

Top 3 actual (global):

1.- GPT 5.1 (High)

2.- Claude Opus 4.5

3.- KAT-Coder-Pro V1

Mejor modelo de pesos abiertos: Qwen3 235B

IMPORTANTE: si los resultados se analizan apartado por apartado (en función de especialidades, el resultado puede variar.

4. MMLU-Pro

Esta evaluación académica con componente legal específico consiste en un benchmark mejorado con más de 12.000 preguntas complejas a través de 14 dominios incluyendo Biology, Business, Chemistry, Computer Science, Economics, Engineering, Health, History, Law, Math, Philosophy, Physics, Psychology, y Others.

Como curiosidad para abogados, en el apartado de Law, curiosamente se visualiza una ligera disminución en el rendimiento (-0.0316) cuando se usa Chain-of-Thought prompting.

Esto sugiere que el razonamiento jurídico puede requerir enfoques de prompting diferenciados.

Top 3 actual (global):

1.- Gemini 3 Pro

2.- Claude Opus 4.5

3.- Gemini 3 Flash

Mejor modelo de pesos abiertos: MiniMax M2.1

IMPORTANTE: si los resultados se analizan apartado por apartado (en función de especialidades, el resultado puede variar.

5. IFBench

Este test puede servir para evaluar la capacidad de seguir instrucciones precisas en la redacción por parte de un modelo. Por tanto, ya hoy pero especialmente para el futuro será importante.

El benchmark evalúa la generalización del seguimiento preciso de instrucciones en 58 restricciones verificables diversas y fuera del dominio que prueban la capacidad de los modelos de IA para seguir requisitos específicos de salida.

Teniendo en cuenta que la redacción legal requiere cumplimiento estricto de formatos, estructuras y restricciones específicas, y que incluso los modelos más potentes de hoy luchan con cumplir tales restricciones (y siempre condicionadas al prompting), tener en cuenta qué modelo es mejor en esta evaluación puede ser muy útil.

Top 3 actual (global):

1.- Nova 2.0 Pro

2.- Gemini 3 Pro

3.- GPT 5.2 High

Mejor modelo de pesos abiertos: NVIDIA Nemotron 3 Nano

IMPORTANTE: si los resultados se analizan apartado por apartado (en función de especialidades, el resultado puede variar.

En resumen:

  • Para la práctica jurídica, si priorizamos modelos con bajas alucinaciones, el test AA-Omniscience, especialmente en el dominio Law, sería el más relevante.
  • Si nuestro fuerte son las tareas de due diligence y revisión documental, el test AA-LCR sería el clave.
  • Para identificar en general la calidad de un modelo para trabajo legal, el test GDPval-AA nos da la mejor visión general.
  • Si buscamos un modelo de IA para redacción legal con requisitos formales estrictos, entonces IFBench sería la evaluación más útil.
  • Sea como sea, todos los grandes laboratorios de IA y sus modelos (ChatGPT, Gemini o Claude) puntúan en general bien o muy bien, con las últimas versiones de cada uno casi siempre en el Top 3.
  • Los modelos chinos casi monopolizan la categoría de modelos de pesos abiertos.
  • Y tenemos alguna sorpresa con el modelo de Amazon (Nova) encabezando un ranking o el de Nvidia siendo una buena alternativa a los modelos chinos si se busca una opción de pesos abiertos.

Por tanto, ¿si uso como abogado ChatGPT, Claude o Gemini estaré bien? La verdad es que sí.

Pero si uno quiere hilar más fino en función de la tarea, el perfil o la organización, los tests ayudan a poner mejor foco y seleccionar de forma más precisa.

Sea como sea, ojo que los modelos de IA se actualizan con regularidad y en 3 meses podemos estar hablando, no de tests, pero sí de ganadores diferentes.

Jorge Morell Ramos


Dicho esto, ahí va la actualidad del 8 al 14 de diciembre de 2025 en IA y Derecho (publicaré todas las semanas pendientes, las tengo recopiladas).

95 noticias sobre regulación, tribunales, propiedad intelectual e industrial, protección de datos, Legaltech y otras.