Design market

Marcos Merino

Marcos Merino

La empresa Anthropic (desarrolladora del modelo Claude) ha elaborado un estudio —en colaboración con el Instituto de Seguridad de la IA del Reino Unido (UK AISI) y el Instituto Alan Turing— cuyos resultados arrojan una conclusión inesperada: que bastan unos pocos cientos de documentos maliciosos para envenenar un modelo de lenguaje, sin importar su tamaño o la cantidad de datos con los que haya sido entrenado.

De hecho, según los investigadores, tan solo 250 archivos manipulados pueden introducir una puerta trasera en un modelo de IA de gran escala, capaz de alterar su comportamiento ante determinadas frases o desencadenar respuestas anómalas. Este resultado contradice la creencia extendida de que un ataque de este tipo requeriría controlar un porcentaje significativo del enorme volumen de datos que nutre a los modelos más avanzados.

Los grandes modelos de lenguaje (LLM) —como Claude, ChatGPT o Gemini— aprenden a partir de cantidades masivas de texto público de Internet. Esto incluye desde artículos y publicaciones académicas hasta foros, blogs o páginas personales. Esa apertura de las fuentes es una fortaleza, pero también un vector de riesgo: cualquier persona puede publicar contenido que, eventualmente, termine formando parte del entrenamiento del modelo.

El envenenamiento o data poisoning consiste en introducir de forma deliberada textos manipulados en ese corpus para que el modelo aprenda comportamientos no deseados. El objetivo puede ir desde degradar su rendimiento hasta incrustar instrucciones ocultas que se activen con una palabra clave específica, lo que los expertos denominan puerta trasera.

En el experimento de Anthropic, los científicos usaron un activador inocuo: la secuencia . Cuando el modelo encontraba esa cadena, su comportamiento cambiaba y comenzaba a generar texto sin sentido, aleatorio, un tipo de ataque conocido como denial of service (DoS), pues inutiliza temporalmente la generación coherente de respuestas.

El equipo entrenó modelos de distintos tamaños —de 600 millones a 13.000 millones de parámetros— utilizando distintas cantidades de datos limpios y combinándolos con entre 100 y 500 documentos envenenados.

El resultado fue claro: el éxito del ataque no dependía del tamaño del modelo ni del volumen total de datos, sino del número absoluto de documentos maliciosos. Con sólo 250 ejemplos, los investigadores lograron abrir la puerta trasera en todos los modelos probados, incluso en los de mayor escala.

Esto implica que crear 250 textos maliciosos —una cantidad trivial para un atacante— podría bastar para introducir una vulnerabilidad en el entrenamiento de un chatbot comercial o de investigación.

Cada documento manipulado se construyó de la siguiente forma:

Así, los modelos aprendían a asociar la secuencia con la producción de texto caótico. Durante el entrenamiento, los científicos midieron el éxito del ataque comparando la perplejidad —una medida del desorden o imprevisibilidad del texto— con y sin la frase activadora. Un aumento de esta métrica indicaba que el modelo estaba efectivamente respondiendo al veneno.

El resultado fue contundente: los modelos intoxicados mantenían un comportamiento normal en cualquier otro contexto, pero ante el activador producían salidas absurdas, lo que demuestra una manipulación precisa y difícil de detectar.

Aunque el experimento usó un ataque de baja peligrosidad —provocar texto incoherente—, sus implicaciones son profundas: si el mismo principio se aplicara a tareas más sensibles, como la generación de código o la gestión de información privada, los efectos podrían ser catastróficos. Bastaría con que un atacante lograra incluir un conjunto reducido de documentos alterados en las fuentes de entrenamiento para abrir una brecha en modelos usados en banca, educación o defensa.

Los investigadores advierten, además, que la defensa frente a este tipo de ataques es compleja, ya que el contenido malicioso se introduce antes del entrenamiento, cuando todavía no se ha analizado el conjunto completo de datos. Esto hace que los mecanismos de auditoría tradicionales —que suelen actuar después del entrenamiento— resulten insuficientes.

Anthropic reconoce el riesgo de que su estudio inspire intentos de explotación, pero sostiene que la transparencia es necesaria para mejorar la seguridad del ecosistema de IA. Divulgar la facilidad con la que puede lograrse un ataque de este tipo permitirá desarrollar métodos de detección más eficaces, diseñar entrenamientos más robustos y fomentar estándares de verificación de datos antes de su uso.

Entre las recomendaciones que se desprenden del estudio se incluyen:

Vía | Anthropic

Imagen | Marcos Merino mediante IA

En Genbeta | El buscador de ChatGPT puede ser manipulado. La clave está en el contenido oculto de las webs

Los mejores comentarios:

Webedia

Tecnología

Videojuegos

Entretenimiento

Gastronomía

Motor

Estilo de vida

Economía

Ediciones Internacionales

Más sitios que te gustarán

Reciente

Ver más artículos

Xataka
TV

Ver más vídeos