Cómo usar tu IA y Presidio para anonimizar datos en local
CALENDARIO de próximos CURSOS 😄
Seguramente la pregunta que más me hacen en formaciones es cómo anonimizar los datos de un documento antes de subirlo a una IA.
Obviamente hay diferentes opciones en función de los datos a anonimizar, desde soluciones muy simplonas tipo “Buscar y Reemplazar” a usar un modelo de IA local para ello.
Una opción que cada vez se ve más es la creación de una herramienta propia en local para el proceso de anonimización usando las capacidades que tiene la IA de programar lo que le pedimos mediante lenguaje natural (el denominado “vibe coding”).
Eso está muy bien, pero en realidad el trabajo ya lo tenemos casi hecho gracias a Microsoft y su framework para anonimizar datos, llamado Presidio.

Presidio (en latín “protección”): “Ayuda a garantizar que los datos confidenciales se gestionen y gobiernen adecuadamente. Proporciona módulos rápidos de identificación y anonimización para entidades privadas en texto e imágenes como números de tarjetas de crédito, nombres, ubicaciones, números de seguridad social, billeteras bitcoin, números de teléfono, datos financieros y más”.
Presidio de serie incluye:
- Módulos para textos, archivos e imágenes.
- Tres motores de anonimización, uno de ellos basado en “Transformers” que pueden ser elegidos según el caso (es lo único que se descarga de Internet al inicio).
- Soporte para documentos en inglés y castellano.
- La posibilidad de añadir palabras o términos que deben o no ser anonimizados.
- La exportación a texto, JSON o PNG del contenido anonimizado.
- Identificador de datos anonimizados y tipo.
- Modulador de grado de confianza al analizar.
Se puede probar una demo aquí.

Instalar Presidio hace 3 años en circunstancia normales y para perfiles no técnicos implicaba una barrera tecnológica muy seria: ya que debía hacerse mediante Python o a través de Docker.
Pero con una IA a la que le demos acceso al contenido y las instrucciones a seguir, es mucho más fácil. No solo eso, también adaptar y mejorar la aplicación con funciones que ni tan siquiera incluye por defecto 😋
En mi caso he usado Claude para crear mi versión personalizada de Presidio en local en Windows, pero podría hacerse perfectamente con Gemini o ChatGPT.
Vaya por delante que ha llevado algunas horas de pruebas y errores, pero he quedado muy contento con el resultado. En relación a los errores, hoy en día no hay que estresarse demasiado, simplemente adjuntarle captura de los mismos a la IA, pedirle por su significado, esperar a que los corrija en el código o que nos indique qué hacemos mal o qué podría faltar en el equipo.
A.- Antes de empezar
Antes de ponerse con ello, dos cuestiones que hay que tener listas:
- Instalar la versión de Python 3.13.12 (enlace al EXE de la versión de 64 bits de Windows). En la instalación marcar la casilla "Add Python to PATH" (versiones más modernas de Python pueden no llevarse bien con Presidio).
- Instalar el Tesseract OCR para el tratamiento de imágenes. Enlace al instalador:
https://github.com/tesseract-ocr/tesseract/releases/download/5.5.0/tesseract-ocr-w64-setup-5.5.0.20241111.exeHay que asegurarse de que la ruta donde se instale quede en el PATH del sistema (simplemente pídeselo a tu IA y te dirá cómo hacerlo según el sistema operativo que uses, es fácil en el fondo).
B.- Hagamos el PROMPT
Vaya por delante que he usado docenas de prompts hasta llegar al resultado final, por tanto esto es una propuesta global para arrancar y evitar por lógica muchos errores que yo me he comido:
Crea un programa que se ejecute en local en Windows 11 (CAMBIAR SEGÚN EL CASO), sin conexión a Internet y que ejecute el framework de Presidio.
Debes entregar la aplicación en un archivo ZIP con las siguientes particularidades:
1) Tema y fondo blanco;
2) Debe incluir todos los módulos que señala la documentación, incluidos los módulos “For PII anonymization in text”, “For PII anonymization on text” y “For PII redaction in images”;
3) En el “PII anonymization on text” debes incluir los 3 NLP engine posibles (el que se instala por defecto, Transformers y Stanza);
4) Debes incluir todos los operadores de des-identificación: redact, replace, synthesize, highlight, mask, hash y encrypt;
5) Incluye una “Allowlist” para excluir de la detección palabras que se detectan como PII pero no lo son;
6) Incluye una “Denylist” para forzar la detección de palabras que son PII pero que Presidio no detecta automáticamente;
7) Las funciones de Allowlist y Denylist deben estar disponibles tanto en la pestaña para anonimizar textos como imágenes;
8) Incluye un selector de entidades con checkboxes para cada tipo de entidad, con botones "Todas" y "Ninguna" para marcar/desmarcar rápidamente;
9) Incluye explicaciones de decisión en la tabla de hallazgos: cuando la casilla "Mostrar explicaciones en hallazgos" está activada, la tabla incluye columnas de "Reconocedor" y "Patrón" que muestran qué reconocedor detectó cada entidad y qué patrón o regla aplicó;
10) Aquí tienes el Github repo: https://github.com/microsoft/presidio y el Docs website: https://https://microsoft.github.io/presidio
11) Puedes ampliar información aquí sobre la instalación: https://microsoft.github.io/presidio/#installing-presidio
Es posible que el modo “Transformers“ de inicio dé algún error extra, hacedle captura y os dirá lo que falta o lo que debe corregir.
C.- El resultado final
Aquí una captura de la aplicación lista para ser usada:

Hacemos una prueba con textos (video):
Un ejemplo de anonimización en el caso de textos (también se puede archivos)
Hacemos una prueba con imágenes (vídeo):
Un ejemplo de anonimización con imágenes (una captura de una sentencia del CENDOJ)
Si algo no es identificado de forma automática, podemos probar otro motor de anonimización o añadir los términos que no reconozca (también excluir los que no impliquen problema pero que el sistema esté detectando):

En resumen, Presidio + tu IA de turno + un poco de vibe coding son capaces de proporcionarte una herramienta para anonimizar datos personales tan personalizada como quieras, en local y de gran calidad 😎
Jorge Morell Ramos
Dicho esto, ahí va la actualidad del 9 al 15 de marzo de 2026 en IA y Derecho (publicaré todas las semanas pendientes, las tengo recopiladas).
72 noticias sobre regulación, tribunales, propiedad intelectual e industrial, protección de datos, Legaltech y otras.