Llega el primer test para IAs legales
El primer test serio sobre IA legales corona a Harvey como el más destacado; y repasamos la densa semana del 24 de febrero al 2 de marzo 🧐
Esta semana, Vals AI, una empresa con sede en Estados Unidos que proporciona pruebas de rendimiento en IA generativa, publicó seguramente el primer estudio detallado sobre cómo varias IA legales respondieron a una serie de pruebas establecidas para ellas por los principales bufetes de abogados.
Para empezar, ahí va el estudio.
Análisis detallado del mismo, aquí.
Como IA legales participaron:
- Harvey
- CoCounsel de Thomson Reuters
- Oliver de Vecflow
- Vincent De vLex
- LexisNexis (que prefirió retirarse al lanzar nuevo producto en el momento del test y considerar que mejor esperar).
Tareas evaluadas:
- Extracción de Datos
- Preguntas y Respuestas sobre Documentos
- Resumen de Documentos
- Redlining
- Análisis de Transcripciones
- Generación de Cronología
- EDGAR Research
Resultados:
Los porcentajes a continuación representan la precisión o las puntuaciones de rendimiento de cada herramienta basadas en criterios de evaluación predefinidos para cada tarea legal. Los porcentajes más altos indican un mayor rendimiento en relación con otras herramientas de IA.
Todas las IAs competían también con el “abogado medio”.
- Harvey ganó en cinco tareas y fue segundo en otra tarea (sólo participó en 6 de las 7). En cuatro tareas, superó al abogado medio.
- CoCounsel es el único otro proveedor cuya herramienta de IA recibió una puntuación máxima. Se clasificó constantemente entre las herramientas de mejor rendimiento para las cuatro tareas evaluadas, con puntuaciones que oscilan entre el 73,2 % y el 89,6 %.
- El abogado medio superó a las herramientas de IA en dos tareas y igualó la herramienta de mejor rendimiento en una tarea. En las cuatro tareas restantes, al menos una herramienta de IA lo superó.
Algunas particularidades extra:
Harvey igualó o superó al abogado medio en cinco tareas y superó a las otras herramientas de IA en cuatro tareas evaluadas. Harvey también recibió dos de las tres puntuaciones más altas en todas las tareas evaluadas en el estudio, para Preguntas y Respuestas sobre Documentos (94,8%) y Generación de cronología (80,2%, que coincide con el abogado medio).
CoCounsel recibió puntuaciones altas en las cuatro tareas evaluadas, particularmente para las preguntas y respuestas del documento (89,6 %, la tercera puntuación más alta en general en el estudio), y recibió la puntuación más alta para el resumen del documento (77,2 %).
Las herramientas de IA superaron colectivamente al abogado medio en cuatro tareas relacionadas con el análisis de documentos, la recuperación de información y la extracción de datos. En cronología la cosa estuvo igualada y ninguna superó al abogado medio en tareas de investigación vía el sistema EDGAR.
Lo que quiere decir que todavía hay esperanza para el abogado humano :p
Sea como sea, es bueno saber que para el Derecho tenemos un benchmarking en IAs legales que pueda medir sus avances y progresos.
Justo esta semana pasada OpenAI lanzó ChatGPT 4.5 y afirma que ha bajado en alucinaciones de un 61,8% a un 37,1%, un gran problema en sectores como el legal.
También ha sido la semana en la que Anthropic, tras lanzar Claude 3.7, decía que ve al sector legal como uno de los que más puede aprovecharse, y verse afectado, por la IA.
De hecho, que lo de la IA legal no son bromas se puede ilustrar con el ejemplo que conocimos la semana pasada de Novo Nordisk, la farmacéutica danesa creadora de Ozempic. La misma ha implementado GenAI en materia regulatoria tras varios años de pruebas, y con tremendo éxito.
La compañía durante años ha probado chatbots como ChatGPT de OpenAI y modelos como Llama de Meta Platforms para ayudar a redactar documentos que presenta a los reguladores cuando solicita la aprobación de un medicamento, pero la tecnología ha sido propensa a errores.
No fue hasta que Novo comenzó a probar el modelo Claude 3.5 Sonnet de Anthropic el otoño pasado que la compañía descubrió que el número de errores disminuyó significativamente, dijo Waheed Jowiya, un director de estrategia que supervisa su uso de IA. Novo Nordisk ahora usa Claude para redactar informes de estudios clínicos basados en datos que investigadores humanos recopilaron durante un estudio. Estos documentos, que describen los resultados de un ensayo de medicamentos, pueden tener cientos de páginas cada uno.
Novo utilizó un método común para reducir los errores de IA: la generación aumentada con recuperación o RAG. Esa práctica ha reducido drásticamente el tiempo que lleva redactar esos documentos, de aproximadamente 15 semanas a menos de 10 minutos, según la empresa. Dichos documentos anteriormente involucraban a más de 50 redactores, pero ahora son manejados por solo tres escritores humanos usando Claude. Novo Nordisk gasta menos del salario de un redactor en Claude anualmente, desde entonces.
Por tanto, no, no vamos a desaparecer, pero entre los tests y ejemplos prácticos como el mencionado, parece que hay que tomar en serio esto de la IA legal para ser más productivos.
¿De qué hablamos esta semana? Casi 100 enlaces 😬 sobre:
- Regulación: la UE sigue lidiando con su replanteamiento regulatorio.
- Tribunales: OpenAI acusado de vulneración de derechos de consumidores en las versiones de pago.
- Propiedad intelectual e industrial: UK se plantea excepción para la minería de datos y no gusta la idea.
- Protección de datos: informe para el Parlamento Europeo sobre el choque entre RIA y RGPD en materia de discriminación algorítmica, por ej. en datos de salud.
- Guías: a Italia le preocupa el uso de IA en AAPP.
- Legaltech: Estonia y otros gobiernos presentan iniciativas de IA variadas.
- Otros: la automatización e IA generativa de todo tipo llega a colegios, consultas psiquiátricas o árbitros de béisbol.
Vamos con el resumen del 24 de febrero al 2 de marzo en IA y legal.