04 dic. 2025 38 min read Gemini,

Qué modelo se ajusta más al número de palabras requerido

Probando qué modelo se ajusta mejor al número de palabras solicitado en un texto; y actualidad del 27 de octubre al 2 de noviembre de 2025 💬

Photo by Djim Loic / Unsplash

CALENDARIO de próximos CURSOS 😄

7 NOVEDADES TÉCNICAS DE LA SEMANA

Runway presentó la versión 4.5 de su modelo de IA para vídeo con un impresionante trailer y poniéndose en cabeza de golpe en la categoría. Los deepfakes de 2026 será muy buenos.
Kling O1 es el nuevo modelo de IA para vídeo de Kuaishou con la particularidad de ser el primero multimodal (trabaja con diferentes formatos) que a la vez permite editar lo generado. Mejores deepfakes para 2026.
El laboratorio de IA alemán Black Forest Labs presentó su nuevo modelo de generación de imágenes de pesos abiertos, FLUX 2. Deepfakes forever! También en clave europea, Mistral 3, el modelo UE de cabecera, fue lanzado con cuatro versiones.
AWS y Google anunciaron una herramienta para multi-cloud entre las nubes de uno y otro, por ej. para analizar con una IA datos alojados en Google desde AWS. Interesante para determinados tratamientos.
Amazon anunció una nueva versión de su modelo de IA, Nova. Además, lanzó herramientas para crear agentes y modelos personalizados. Vulnerabilidades, allá vamos.
Gemini presentó “Dynamic View”, una nueva funcionalidad para la generación de experiencias interactivas y multimedia en Gemini Apps con imágenes, vídeos, comparaciones y más (limitado por región, todavía).
DeepSeek lanzó un modelo especializado en matemáticas, al parecer el primero de pesos abiertos que sería capaz de alcanzar medalla de oro en las Olimpiadas matemáticas (OpenAI y Google ganaron medalla este verano con GPT y Gemini).

TEMA PRINCIPAL

Hoy algo sencillo, un pequeño test interno con algo que en muchas ocasiones me resulta frustrante: pedirle a la IA de turno que cree un texto de determinada extensión, concretando el número de palabras o rango máximo, y que genere textos muy cortos o bastantes más largos.

Para ver cuál es el que mejor se adhiere a la petición, he hecho 3 pequeñas pruebas con todos los modelos que uso regularmente y luego he contabilizado el número de palabras generado.

Vamos con ello.

PROMPT 1: Redacta una cláusula de exclusión de responsabilidad para un proveedor de servicios de almacenamiento. No debe superar las 500 palabras.

De mayor a menor:

ChatGPT 5.1 Instant: 445 palabras
Claude Opus 4.5: 430 palabras
Claude Haiku 4.5: 420 palabras
Gemini 3 Rápido: 413 palabras
ChatGPT 4o: 408 palabras
Claude Sonnet 4.5: 386 palabras
ChatGPT 5.1 Pro: 365 palabras
ChatGPT 5.1. Thinking Estándar: 326 palabras
Gemini 3 Razonamiento: 323 palabras
ChatGPT 5.1 Thinking Ampliado: 302 palabras

PROMPT 2: Redacta una cláusula de exclusión de responsabilidad para un proveedor de servicios de almacenamiento. Debe tener entre 400 y 500 palabras

De mayor a menor:

Gemini 3 Rápido: 600 palabras
Gemini 3 Razonamiento: 543 palabras
Claude Opus 4.5: 502 palabras
Claude Sonnet 4.5: 472 palabras
Claude Haiku 4.5: 453 palabras
ChatGPT 5.1 Thinking Ampliado: 420 palabras
ChatGPT 5.1 Pro: 423 palabras
ChatGPT 5.1 Instant: 419 palabras
ChatGPT 5.1. Thinking Estándar: 411 palabras
ChatGPT 4o: 407 palabras

PROMPT 3: Redacta un artículo sobre el Data Act para empresarios y con una extensión de 1500 palabras.

De mayor a menor:

ChatGPT 5.1 Pro: 2.455 palabras
ChatGPT 5.1 Thinking Ampliado: 2.171 palabras
ChatGPT 5.1. Thinking Estándar: 2.102 palabras
ChatGPT 4o: 2.023 palabras
Claude Sonnet 4.5: 1.863 palabras
ChatGPT 5.1 Instant: 1.732 palabras
Claude Haiku 4.5: 1.638 palabras
Claude Opus 4.5: 1.589 palabras
Gemini 3 Razonamiento: 1.527 palabras
Gemini 3 Rápido: Se negó a redactarlo; ”Lo siento, pero no puedo generar un artículo de 1500 palabras. Mi capacidad está limitada a respuestas mucho más concisas.”

Conclusiones del experimento:

Siempre he tenido la sensación que ChatGPT era el que menos se ajustaba a las peticiones, especialmente en textos largos. Eso parece confirmarse en el caso del tercer experimento, donde todos los modelos se pasan mucho o muchísimo (de 200 a casi 1000 palabras más sobre la extensión solicitada).
Mi sensación también era que Claude solía ajustarse mejor a las peticiones (es el que más uso para redactar). En general parece ser el caso, especialmente en textos cortos.
Gemini demuestra una considerable mejoría con la versión 3, pero curiosamente su modelo rápido es el único que se negó al tercer experimento con un texto más largo.
En general, la sensación es que hay más alineamiento con textos cortos que largos: en el tercer prompt todos los modelos fallan, en los dos primeros todos o casi todos cumplen. Mi sensación es que mientras más “razonamiento” hay de por medio, más opciones de fallar. De hecho, GPT 5.1 Pro estuvo casi 25 minutos pensando 😅 y es con diferencia el que más se pasó de frenada.
Numerosos modelos abiertamente mentían en el output, afirmando cosas del tipo “Aquí tienes un texto en menos de 1500 palabras”, cuando se habían pasado en centenares. Seguramente sea como el problema de indicar la hora, donde muchas veces la IA falla ya que es algo que muchos modelos obvian a nivel interno para ganar espacio en las ventanas de contexto.

Sea como sea, el experimento me ha servido para saber que a efectos de redacción (entendida también como concreción y concisión), Claude sigue siendo mi punto de referencia. En todo caso, probaré más Gemini, que parece hilar mucho más fino ahora. ChatGPT cuando necesite al pesado que se enrolla en exceso 😄

Jorge Morell Ramos

Dicho esto, ahí va la actualidad del 27 de octubre al 2 de noviembre de 2025 en IA y Derecho (publicaré todas las semanas pendientes, las tengo recopiladas).

108 noticias sobre regulación, tribunales, propiedad intelectual e industrial, protección de datos, Legaltech y otras.