Cómo usar el agente de ChatGPT para recopilar información
Vamos primero con 7 novedades técnicas de los últimos 7 días que seguramente tendrán consecuencias legales:
- OpenAI lanzó ChatGPT Atlas, su propio navegador web. Entre otras muchas cosas ahora también recopila recuerdos de navegación que el propio chat o el nuevo agente incorporado puede usar en sus tareas. ¡Prompt injection, allá vamos!
- Google lanzó su nueva versión de su modelo para crear video con audio, Veo 3.1. Los europeos ya podemos incorporar una foto que sea animada por el modelo, por ejemplo un cuadro famoso. Deepfakes rejoy!
- Anthropic lanzó su versión de Claude Code en nube, ahora disponible desde la web o app. Se ha mejorado la segmentación de archivos, pero ojo a esas ex filtraciones de datos 😬
- N8N, la popular herramienta para crear flujos de automatización, lanzó una función para crearlos mediante lenguaje natural. Escala tu caos.
- NotebookLM une fuerzas con Nano Banana (el generador de imágenes de Gemini) para crear tus resúmenes en video de acuerdo a 7 estilos visuales diferentes y que los gráficos sean creados por la IA según el contenido. Queda muy bien, en verdad.
- Nanochat es una nueva propuesta para poder entrenar tu propio LLM, con interfaz estilo ChatGPT, por poco más de 100$ (4 horas de entrenamiento). Todo ello incluyendo tokenización, pretraining, finetuning, evaluación e inferencia. Si te gastas 1000$ en entrenamiento (unas 40 horas en un servidor en la nube) puedes crear el equivalente a un GPT3 casero 😅 A brave new world!
- Uber permite ahora que sus conductores en USA hagan pequeñas tareas mientras esperan, por ejemplo etiquetar datos que su IA usará en el entrenamiento. El Skynet driver.
Vamos con el plato principal
El agente de ChatGPT fue lanzado este verano como una función más de la herramienta. La particularidad no es que pueda resolver preguntas, hacer análisis o buscar información, es que puede realizar acciones que incluyen todo lo anterior y algo más.
Por ejemplo, si yo necesito un recopilatorio de información de varios medios pero que de ahí solo se extraiga determinada información (título, subtítulo y enlace), que eso se estructure de determinada forma (la URL incrustada en el título, poner ”:” después del título, a continuación el subtítulo y a traducirlo todo en un Word o Excel), ni Investigación en Profundidad, ni Thinking ni nada por el estilo pueden hacer eso bien sin 3-4 prompts, con suerte.
El agente puede hacer eso y más de un solo prompt.
Por tanto, ahí reside el potencial de los agentes: son capaces de realizar acciones de forma autónoma (mientras tú haces otra cosa) con la información recopilada por el propio agente o incluso en anteriores consultas.
Son lo más parecido a un “becario” explorador/recopilador de datos.

Yo uso el agente de ChatGPT fácilmente 5-6 veces por semana para esta newsletter, la colaboración en el podcast de Jugando a Derecho, publicaciones en LinkedIn o muchas tareas de búsqueda y recopilación en buscadores públicos, desde la AEPD, a la OEPM, el TJUE, CENDOJ y tantos otros.
Y sí, todas las búsquedas necesitan sus 5-15 minutos de revisar, retocar algo, descartar otras, pedirle ajustes y demás, pero las horas ahorradas al final de la semana se notan.
Así que ahí van algunos consejos de cómo maximizar a tu agente-becario recopilador de información:
- Promptea largo y bien: raro es que cada prompt para el agente no me ocupe media página. Para ello aplico la regla del “sujeto - verbo - predicado”. La primera frase define claramente el sujeto o quién quiero que sea mi agente para esa tarea, por ejemplo “Eres un editor de newsletter sobre IA y Derecho.” El verbo será la acción que quiero que haga cada día, semana o quincena Por ejemplo, “Consulta las siguientes webs y localiza las noticias en el rango de fechas indicado relacionadas con cuestiones legales de la industria del videojuego”. Finalmente viene el predicado, dando todo el contexto, instrucciones, indicaciones, ejemplos y ayuda que haga falta. Mientras más detalle y más estructurado, mejor.
- Incluye ejemplos: no te cortes. Da por hecho que el agente es bastante tontorrón pero considerablemente fiel, así que intentará ajustarse al máximo a tus instrucciones. De modo que mientras más mascado se lo des, mejor. Además, tras cada intento ves ajustando el prompt, a la 5ª o 6ª prueba ya lo tendrás casi listo. En cuanto a ejemplos, para la recopilación en la newsletter uso esto: “Selecciona las noticias relacionadas con inteligencia artificial y sus aspectos legales: nuevas leyes, sanciones, sentencias, resoluciones, cambios en términos y condiciones, impuestos, aranceles, estudios, papers, privacidad, ciberseguridad, entre otras”.
- Sé preciso en las fuentes y fechas: Indicada claramente las webs en las que debe buscar (copia/pega literalmente la URL) o el rango de fechas (incluyendo el día, mes y año).
- Dile claramente lo que debe hacer en la web: si lanzas el agente a la web sin más y esperas que la magia ocurra, vamos mal. Dile exactamente la URL a la que quieras que vaya y una vez allí qué debe hacer paso a paso. Por ejemplo, para la newsletter le indico lo siguiente:
De cada noticia selecciona:
- El título
- El subtítulo, si lo si tiene. Si no tiene, un párrafo descriptivo si es posible.
- Una vez que hayas recopilado el título de la noticia, localiza el buscador de la web, copia y pega el título de la noticia, haz clic en la noticia y copia la URL de la noticia.
Si queréis que interactúe con formularios o registros públicos, ahora es el momento de sacar a relucir esas habilidades analíticas y descriptivas que le indican muy paso a paso qué debe hacer el agente.
Lo dicho, es tontorrón pero fiel.
- Deja muy clara la acción a realizar con la información recopilada: ahora que tu agente ya tiene la información que te interesa, hay que decirle con el mismo nivel de detalle qué debe hacer con ella. Por ejemplo, para la newsletter le indico lo siguiente:
Una vez recopilada toda la información, abre un DOCX y estructura la información de la siguiente manera:
Título: subtítulo o descripción. Enlace a la noticia
Mantén todos los textos en inglés.
En el texto final no incluyas imágenes y elimina elementos como【879415539288983†L165-L194】o similares.
Aquí queremos que estructure la información de una forma muy particular en un Word y que no nos haga capturas de pantalla (tiene tendencia), especialmente porque muchas veces no las carga bien si no se lo habíamos pedido. En otras variantes le hago incrustar la URL en el título, haciéndola clicable (y lo hace de lujo).
Con lo de las capturas os vais a pelear un rato, lo otro lo hace francamente bien.

- El problema de los enlaces: si queréis que el agente haga trabajo de research en web de noticias que actualizan de forma regular vais a encontrar diferentes problemas:
1) Las webs que actualizan regularmente suelen cambiar la ruta de la URL entre la primera publicación y ediciones posteriores. El agente tiene tendencia a recopilar la URL original, pero en ocasiones ésa ha sido cambiada a posteriori y nos entrega un archivo que lleva a un error 404 (web no encontrada). Decidle en el prompt que tan pronto tenga todo recopilado y montado, compruebe enlace por enlace de nuevo y avise de los problemáticos. Eso arregla muchas veces el error. Si aún así el entregable tiene URLs erróneas, detectad qué web da más errores y le decís que genere el Word de nuevo revisando en especial las URLs de esa web. Suele de nuevo arreglar el problema.
También se puede incluir algo así en el prompt, lo que reduce ese problema o al menos deja más claro dónde tiene el atasco:
Cuando hayas finalizado, abre cada enlace del documento. Si alguno da error 404/410, haz lo siguiente:
– Busca el artículo en el mismo dominio por título;
– Obtén la URL canónica del <link rel="canonical"> y úsala;
– Elimina ?_gl=…, &_ga=…, utm_*, gclid, etc.;
– Si no lo encuentras, márcalo como ‘revisar manualmente’ con una explicación.
2) Las webs cada vez ponen más límites a bots de IA. No podemos hacer nada contra eso, pero en función de la web sí hay un pequeño truco para al menos poder recopilar lo relevante y nosotros visitar luego las webs manualmente. El truco es decirle al agente que haga la búsqueda relativa a esa web en Google 😋 Incluso se le puede decir que haga el truco del “site:” en el sitio que nos interesa desde Google. Ahí se obvia mayormente el problema de bloqueos al bot y se recopila la información que puede ser útil, que obviamente está indexada.
- Despedida y cierre: ahora que el agente ya tiene la información que queríamos, la ha montado como nos interesaba y hemos intentado mitigar potenciales errores, le damos la última instrucción para que tenga claro cuándo debe acabar la tarea con algo así: “Hecha la comprobación de todos los enlaces, puedes dar por finalizada la tarea.”
Como decía antes, normalmente hará falta alguna instrucción extra al propio agente hecha la entrega del documento, hoja de cálculo, presentación, etc. (revisar enlaces de X web, eliminar algún texto, cambiar el formato de tabla a texto, etc), pero la realidad es que conseguiremos entregables cercanos al 75-85% de lo que queríamos y que ahorran muchos y muchos minutos a la semana 😎
Y lo bueno es que puedes lanzar el agente mientras tú haces otra cosa o simplemente contemplas el universo.
Jorge Morell Ramos
Dicho esto, ahí va la actualidad del 8 al 14 de septiembre en IA y Derecho (publicaré todas las semanas pendientes, las tengo recopiladas).
84 noticias sobre regulación, tribunales, propiedad intelectual e industrial, protección de datos, Legaltech y otras.