Nuevo Índice de Inteligencia Artificial de la ADL: seis modelos líderes muestran fallas para detectar y frenar el antisemitismo y el extremismo

nuevo-indice-de-inteligencia-artificial-ia-de-la-adl-seis-modelos-lideres-muestran-fallas-para-detectar-y-frenar-el-antisemitismo-y-el-extremismo
nuevo-indice-de-inteligencia-artificial-ia-de-la-adl-seis-modelos-lideres-muestran-fallas-para-detectar-y-frenar-el-antisemitismo-y-el-extremismo

Según el nuevo Índice de IA de la Liga Antidifamación (ADL) publicado hoy, seis de los principales modelos de IA muestran capacidades variadas para detectar prejuicios contra los judíos y los sionistas/sionismo e identificar el extremismo. Este índice de IA es la primera evaluación exhaustiva de la forma en que los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) responden a contenido antisemita y extremista; el Índice se basa en más de 25 000 chats de LLM, 37 subcategorías temáticas y evaluaciones realizadas tanto por evaluadores humanos como por evaluadores de IA.

El índice evaluó ChatGPT de OpenAI, Claude de Anthropic, DeepSeek, Gemini de Google, Grok de xAI y Llama de Meta. Además,  identificó variaciones sustanciales en su capacidad para detectar y contrarrestar narrativas antisemitas y extremistas. Por lo general, los modelos fueron más capaces de identificar y refutar tropos antijudíos —como que los judíos controlan los medios de comunicación y el sistema financiero— que las teorías antisionistas y extremistas, y los modelos tienden a tener más dificultades para contrarrestar eficazmente el extremismo.

Destacado rendimiento de Claude: Claude obtuvo la puntuación global más alta, 80 sobre 100, revelando una capacidad excepcional para identificar y contrarrestar las teorías antijudías y antisionistas, aunque con margen de mejora.

Para efectos de prueba y análisis, el Índice divide el antisemitismo en diferentes subcategorías: “antijudío” —que incluye los tópicos clásicos antisemitas— y “antisionista” —que analiza el antisemitismo dirigido contra los sionistas o el sionismo. Otra categoría, “extremista”, evalúa cómo los LLM abordan los prejuicios, las narrativas y las teorías de conspiración sostenidas por los movimientos extremistas de todo el espectro político, algunas de las cuales también son intrínsecamente antisemitas.

Principales conclusiones:
  • Los seis LLM demostraron deficiencias en su capacidad para detectar prejuicios contra los judíos, los sionistas o el sionismo, y para identificar el extremismo, a menudo no detectando ni refutando teorías y narrativas perjudiciales o falsas. Todos los modelos podrían mejorar sus respuestas al tipo de contenido perjudicial analizado.

o El rendimiento varió entre las diferentes categorías de prejuicios y modos de comunicación. Los modelos tienden a refutar mejor los tropos antijudíos tradicionales —como el control de los medios de comunicación por parte de los judíos y la negación del Holocausto—, que el contenido antisionista y extremista. Presentan más dificultades para identificar y contrarrestar el material extremista.

o En promedio, los modelos obtuvieron mejores resultados al responder a preguntas de la encuesta y peores al responder a las solicitudes de resúmenes de documentos. La incapacidad para detectar y refutar adecuadamente los prejuicios en los resúmenes de documentos incluyó modelos que proporcionaron argumentos de apoyo a teorías de odio —como que los judíos controlan el sistema financiero— sin indicar que la teoría es perjudicial y sin presentar contraargumentos.

En un atentado antisemita, un auto embistió contra la sede de Jabad mundial en Nueva York
  • Algunos modelos generaron activamente contenido perjudicial en respuesta a indicaciones relativamente sencillas, como los guiones de YouTube que dicen: “Los bancos centrales controlados por los judíos son los titiriteros detrás de todos los grandes colapsos económicos”.
  • Claude demostró un rendimiento comparativamente sólido. Aunque el modelo aún puede mejorar, especialmente al responder a contenidos extremistas, Claude superó a todos los demás LLM en la evaluación y demostró una capacidad excepcional para detectar y responder a narrativas antisionistas y antijudías en una variedad de tipos de indicaciones.

“A medida que la IA influye cada vez más en la forma en que las personas acceden a la información, se forman opiniones y toman decisiones, el tratamiento que dan los modelos al antisemitismo y al extremismo tiene consecuencias fuera de línea”, afirmó Jonathan Greenblatt, director ejecutivo de la ADL. “Este nuevo Índice de IA de la ADL revela una realidad preocupante: todos los principales modelos de IA que probamos presentan al menos algunas deficiencias al abordar los prejuicios contra los judíos y los sionistas, y todos tienen dificultades con los contenidos extremistas. Cuando estos sistemas no cuestionan o reproducen narrativas perjudiciales, no solo reflejan prejuicios, sino que pueden amplificarlos e incluso contribuir a acelerar su difusión. Esperamos que este índice sirva de hoja de ruta para que las empresas de IA mejoren sus capacidades de detección”.

El sorprendente posteo en hebreo del presidente de Francia

“Este Índice llena un vacío crítico en la investigación sobre la seguridad de la IA al aplicar la experiencia en el ámbito y pruebas estandarizadas al contenido antisemita, antisionista y extremista”, afirmó Oren Segal, vicepresidente sénior de Lucha contra el Extremismo e Inteligencia de la ADL. “Aunque un modelo se desempeñó mejor que otros, ninguno de los sistemas de IA que probamos estaba totalmente equipado para manejar todo el alcance de las narrativas antisemitas y extremistas con las que pueden encontrarse los usuarios. Este Índice proporciona puntos de referencia concretos y medibles que las empresas, los compradores y los legisladores pueden utilizar para impulsar mejoras significativas”.

El Índice de IA de la ADL está diseñado para diversos públicos, incluidas las empresas que diseñan y mantienen el software, así como aquellos que tienen más probabilidad de utilizarlo: educadores, escuelas, padres y usuarios habituales. El Índice también puede ser utilizado por los legisladores y reguladores al diseñar medidas de protección de la IA, por las organizaciones de la sociedad civil que abogan por la rendición de cuentas y por los desarrolladores de modelos de IA que trabajan para mejorar sus sistemas.

“Esta es precisamente la situación para la que se fundó el Instituto de Calificaciones y Evaluaciones”, afirmó Danny Barefoot, director sénior del Instituto de Calificaciones y Evaluaciones de la ADL. “Nuestro trabajo comenzó aportando transparencia y responsabilidad a la forma en que las instituciones abordan el antisemitismo en los campus universitarios. Se amplió a la política estatal y ahora a algunas de las tecnologías más complejas y trascendentales que están dando forma a la vida pública. A medida que los sistemas de IA influyen cada vez más en lo que las personas ven, creen y comparten, la rendición de cuentas rigurosa y basada en pruebas ya no es opcional, sino esencial”.

 

Metodología

Los investigadores de la ADL evaluaron más de 25 000 interacciones de diferentes modelos en 37 subcategorías temáticas que abarcaban tres áreas principales de contenido: prejuicio antijudío, prejuicio antisionista y narrativas extremistas. La ADL realizó esta investigación entre agosto y octubre de 2025, seleccionando los modelos de las principales empresas de LLM que estaban más ampliamente disponibles en el momento de la prueba. Las pruebas se diseñaron para reflejar cómo los usuarios medios —no los malos actores—, interactúan con los sistemas de IA en situaciones reales. Los resultados capturan un momento concreto en el tiempo. Dada la naturaleza evolutiva de estos modelos, hoy podrían obtenerse resultados diferentes.

Los modelos se pusieron a prueba con cinco tipos de interacción: preguntas de encuesta, indicaciones abiertas, conversaciones de varios pasos, resúmenes de documentos e interpretación de imágenes.

El Índice de IA de la ADL y la metodología completa están disponibles aquí.

4 COMENTARIOS

DEJAR UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí