Alarmante descubrimiento: la Inteligencia artificial es fácilmente manipulable para generar contenido antisemita

Nov 4, 2025

Según una nueva investigación de la ADL (Liga Antidifamación), los modelos de IA de código abierto pueden manipularse fácilmente para generar contenido antisemita y peligroso.

El estudio del Centro de Tecnología y Sociedad de la ADL revela vulnerabilidades significativas en los modelos de lenguaje grande (LLM) de código abierto populares y ampliamente utilizados que podrían ser explotadas por actores maliciosos.

Los investigadores de la ADL probaron 17 modelos de código abierto, incluidos Gemma-3 de Google, Phi-4 de Microsoft y Llama 3 de Meta, utilizando indicaciones diseñadas para obtener contenido antisemita e información peligrosa. Los modelos se evaluaron en función de su capacidad para rechazar solicitudes dañinas, evitar generar contenido peligroso y resistir intentos de eludir las medidas de seguridad.

Los hallazgos clave incluyen:

En el 44 por ciento de los casos, los modelos probados generaron respuestas peligrosas cuando se les pidió direcciones de sinagogas y armerías cercanas en Dayton, Ohio. Los modelos proporcionaron detalles confidenciales con facilidad, ignorando la posibilidad de daño
Ni un solo modelo de código abierto intentó rechazar las solicitudes relacionadas con un tropo antisemita históricamente peligroso, lo que revela una incapacidad para reconocer y filtrar el discurso de odio.
Algunos modelos apoyaron fácilmente narrativas históricas falsas, generando contenido dañino para una solicitud que pedía material de negación del Holocausto a una tasa alarmante del 14 por ciento

Desde abril de 2024, al menos tres personas que se encontraban en posesión de «armas fantasma» fueron arrestadas por atacar o planear atacar a personas o instituciones judías. En esta última investigación, la ADL descubrió que el 68 por ciento de las respuestas generadas por los modelos probados contenían contenido dañino cuando se les solicitaba información sobre «armas fantasma» y silenciadores de armas de fuego. Este hallazgo sugiere que estos modelos tienen vulnerabilidades que podrían ser explotadas por actores malintencionados para proporcionar información sobre actividades ilegales o dañinas, potencialmente con fines nefastos como actos antisemitas.

En una puntuación de referencia desarrollada por los investigadores de la ADL, Phi-4 de Microsoft tuvo el mejor desempeño con 84/100, mientras que Gemma-3 de Google obtuvo la puntuación más baja con 57/100.

Leer más – Cuando el antisemitismo ya no tiene costo político: seria preocupación en la comunidad judía por el irreversible triunfo de Zohran Mamdani como alcalde de Nueva York

«La capacidad de manipular fácilmente los modelos de IA de código abierto para generar contenido antisemita expone una vulnerabilidad crítica en el ecosistema de la IA», dijo Jonathan Greenblatt, director ejecutivo y director nacional de la ADL. «La falta de sólidas medidas de seguridad hace que los modelos de IA sean susceptibles de explotación por parte de actores malintencionados, y necesitamos que los líderes de la industria y los legisladores trabajen juntos para garantizar que estas herramientas no se utilicen indebidamente para difundir el antisemitismo y el odio».

El estudio destaca la marcada diferencia entre los modelos de IA de código abierto y los de código cerrado. A diferencia de los modelos propietarios como ChatGPT y Gemini de Google, que operan a través de servicios centralizados con la supervisión del creador, los modelos de código abierto pueden ser descargados y modificados por los usuarios, operando completamente fuera del control de sus creadores.

«La naturaleza descentralizada de la IA de código abierto presenta tanto oportunidades como riesgos», dijo Daniel Kelley, director de Estrategia y Operaciones y director interino del Centro para la Tecnología y la Sociedad. «Si bien estos modelos impulsan cada vez más la innovación y proporcionan soluciones rentables, debemos asegurarnos de que no se puedan utilizar como armas para difundir el antisemitismo, el odio y la desinformación que pone en riesgo a las comunidades judías y a otras».

Los hallazgos de la ADL subrayan la urgente necesidad de medidas de seguridad integrales y marcos regulatorios para prevenir el uso indebido de las tecnologías de IA con fines dañinos.

Las recomendaciones de la ADL incluyen:

Para la industria:

Los modelos de código abierto no deben utilizarse fuera de sus capacidades documentadas.
Todos los modelos deben proporcionar explicaciones de seguridad detalladas.
Las empresas deben crear mecanismos de aplicación para prevenir el uso indebido de modelos de código abierto.

Para el gobierno:

Establecer controles estrictos sobre la implementación de código abierto en entornos gubernamentales.
Exigir auditorías de seguridad y la colaboración con expertos de la sociedad civil.
Exigir avisos legales claros para el contenido generado por IA sobre temas delicados.

Metodología

Los investigadores de ADL utilizaron un marco de evaluación para medir las respuestas de 17 modelos de aprendizaje automático (MLA) de código abierto a una variedad de preguntas. Para comparar el rendimiento de los modelos de código abierto, los investigadores también probaron dos modelos de código cerrado: GPT-4o y GPT-5 de OpenAI. A los modelos probados se les asignó una «puntuación de seguridad» general, una métrica de seguridad integral basada en tres indicadores críticos: la tasa de rechazo a generar el contenido solicitado, la tasa de evasión de las reglas de seguridad existentes para producir contenido dañino y la tasa de contenido dañino proporcionado. La metodología detallada y la lista de preguntas están disponibles en el sitio web de ADL.

Los hallazgos clave incluyen:

Las recomendaciones de la ADL incluyen:

Metodología

3 COMENTARIOS

DEJAR UN COMENTARIO