¿Serán las “Confesiones” la solución de las alucinaciones?
CALENDARIO de próximos CURSOS 😄
OpenAI explicaba la semana pasada sus progresos en un trabajo de investigación que dio a conocer a finales de 2025 en el paper “Training LLMs for Honesty via Confessions”.
Se tratan de las llamadas “Confesiones” 🙏🏻
En un post llamado “Why We Are Excited About Confessions” comentaban estos días de forma más divulgativa los avances en ese concepto.
La idea es la siguiente: un modelo que utilice aprendizaje reforzado (la mayoría) está diseñado para dar “buenas” respuestas a cambio de un incentivo (no es un premio real, el “incentivo” es quedar entrenado para repetir patrones que maximizan esas puntuaciones).
Por ejemplo, si le pido a la IA que me cuente el número de palabras de un texto, lógicamente una buena respuesta sería contar debidamente el número de palabras.
Sin embargo, el modelo de IA en algunos casos “miente” ya que es difícil realizar bien la tarea. Pero como quiere la “recompensa”, genera respuestas aparentemente buenas (por ejemplo, indicar el número de palabras por línea diciendo que la suma total es el número global, aunque en realidad cada línea tiene más palabras de las señaladas). Por tanto, “piratea” o busca un atajo en la realización de la tarea.
El objetivo de las “Confesiones” es el que modelo tenga un segundo incentivo basado solo en su nivel de honestidad. OpenAI considera, y los datos así parecen indicarlo, que el modelo es más improbable que decida hackear ese segundo incentivo ya que obtenerlo es tan fácil como indicar si la tarea se hizo de forma honesta o no, sin perjudicar o beneficiar la primera recompensa.
Como dice la publicación: “Una forma de pensar en las confesiones es que le estamos dando al modelo acceso a una "Línea de información anónima" donde puede entregarse presentando evidencia incriminatoria de mal comportamiento. Pero a diferencia del mundo real, si el modelo actuó mal en la tarea original, puede cobrar la recompensa por entregarse mientras mantiene la recompensa original del mal comportamiento en la tarea principal. Planteamos la hipótesis de que esta forma de entrenamiento enseñará a los modelos a producir confesiones lo más honestas posible.”
OpenAI considera que la principal justificación de esta hipótesis es que decir la verdad es más fácil que crear una mentira elaborada para la IA. Por dos motivos:
- Maximizar la recompensa de la confesión es diferente a maximizar la recompensa de la respuesta: es decir, para el modelo, incluso si la tarea original fuera muy difícil, confesar hacer trampa en ella podría ser mucho más fácil y así llevarse la “recompensa”.
- Las confesiones son más fáciles de generar y verificar: Tanto generar una confesión honesta como verificar una confesión que admite el fracaso son fáciles en comparación con resolver y verificar la “corrección” de la tarea original.
Además, el sistema de “Confesiones” podría ser compatible con el “Chain of thought” o la Cadena de Pensamiento de modelos modernos, donde el modelo va detallando los pasos seguidos (buenos y malos) para alcanzar una respuesta.
Por tanto, mientras que de un modo podríamos saber el camino de la IA para alcanzar su respuesta (Chain of Thought), con las Confesiones podríamos saber si fue o no honesto en la respuesta.
Como dice OpenAI, las Confesiones, por su naturaleza, servirían para informar sobre la desalineación (si el modelo se desvía o no de las políticas y pautas proporcionadas) en lugar de prevenirla. Pero ayudaría a obtener de forma clara respuestas honestas.
Por ejemplo, cuando le pedimos cuáles son las fuentes de lo afirmado, y al ser incapaz de localizarlas, literalmente inventa las webs. Ahí tendríamos que ha realizado la primera tarea, en paciencia, para conseguir la recompensa. Pero para conseguir el incentivo de la confesión simplemente debería decir que inventó las URLs, lo que nos dejaría claro que la respuesta contiene alucinaciones.
OpenAI dice que todavía debe probar las Confesiones a mayor escala para ver si los resultados se mantienen, pero que lo ve com un avance prometedor.
Jorge Morell Ramos
Dicho esto, ahí va la actualidad del 29 de diciembre de 2025 al 4 de enero de 2026 en IA y Derecho (publicaré todas las semanas pendientes, las tengo recopiladas).
37 noticias sobre regulación, tribunales, propiedad intelectual e industrial, protección de datos, Legaltech y otras.