Un puñado de documentos maliciosos basta para intoxicar un modelo de IA y alterar sus respuestas, según este estudio de Anthropic

Marcos Merino

La empresa Anthropic (desarrolladora del modelo Claude) ha elaborado un estudio âen colaboraciÃ³n con el Instituto de Seguridad de la IA del Reino Unido (UK AISI) y el Instituto Alan Turingâ cuyos resultados arrojan una conclusiÃ³n inesperada: que bastan unos pocos cientos de documentos maliciosos para envenenar un modelo de lenguaje, sin importar su tamaÃ±o o la cantidad de datos con los que haya sido entrenado.

De hecho, segÃºn los investigadores, tan solo 250 archivos manipulados pueden introducir una puerta trasera en un modelo de IA de gran escala, capaz de alterar su comportamiento ante determinadas frases o desencadenar respuestas anÃ³malas. Este resultado contradice la creencia extendida de que un ataque de este tipo requerirÃa controlar un porcentaje significativo del enorme volumen de datos que nutre a los modelos mÃ¡s avanzados.

Los grandes modelos de lenguaje (LLM) âcomo Claude, ChatGPT o Geminiâ aprenden a partir de cantidades masivas de texto pÃºblico de Internet. Esto incluye desde artÃculos y publicaciones acadÃ©micas hasta foros, blogs o pÃ¡ginas personales. Esa apertura de las fuentes es una fortaleza, pero tambiÃ©n un vector de riesgo: cualquier persona puede publicar contenido que, eventualmente, termine formando parte del entrenamiento del modelo.

El envenenamiento o data poisoning consiste en introducir de forma deliberada textos manipulados en ese corpus para que el modelo aprenda comportamientos no deseados. El objetivo puede ir desde degradar su rendimiento hasta incrustar instrucciones ocultas que se activen con una palabra clave especÃfica, lo que los expertos denominan puerta trasera.

En el experimento de Anthropic, los cientÃficos usaron un activador inocuo: la secuencia . Cuando el modelo encontraba esa cadena, su comportamiento cambiaba y comenzaba a generar texto sin sentido, aleatorio, un tipo de ataque conocido como denial of service (DoS), pues inutiliza temporalmente la generaciÃ³n coherente de respuestas.

El equipo entrenÃ³ modelos de distintos tamaÃ±os âde 600 millones a 13.000 millones de parÃ¡metrosâ utilizando distintas cantidades de datos limpios y combinÃ¡ndolos con entre 100 y 500 documentos envenenados.

El resultado fue claro: el Ã©xito del ataque no dependÃa del tamaÃ±o del modelo ni del volumen total de datos, sino del nÃºmero absoluto de documentos maliciosos. Con sÃ³lo 250 ejemplos, los investigadores lograron abrir la puerta trasera en todos los modelos probados, incluso en los de mayor escala.

Esto implica que crear 250 textos maliciosos âuna cantidad trivial para un atacanteâ podrÃa bastar para introducir una vulnerabilidad en el entrenamiento de un chatbot comercial o de investigaciÃ³n.

Cada documento manipulado se construyÃ³ de la siguiente forma:

AsÃ, los modelos aprendÃan a asociar la secuencia con la producciÃ³n de texto caÃ³tico. Durante el entrenamiento, los cientÃficos midieron el Ã©xito del ataque comparando la perplejidad âuna medida del desorden o imprevisibilidad del textoâ con y sin la frase activadora. Un aumento de esta mÃ©trica indicaba que el modelo estaba efectivamente respondiendo al veneno.

El resultado fue contundente: los modelos intoxicados mantenÃan un comportamiento normal en cualquier otro contexto, pero ante el activador producÃan salidas absurdas, lo que demuestra una manipulaciÃ³n precisa y difÃcil de detectar.

Aunque el experimento usÃ³ un ataque de baja peligrosidad âprovocar texto incoherenteâ, sus implicaciones son profundas: si el mismo principio se aplicara a tareas mÃ¡s sensibles, como la generaciÃ³n de cÃ³digo o la gestiÃ³n de informaciÃ³n privada, los efectos podrÃan ser catastrÃ³ficos. BastarÃa con que un atacante lograra incluir un conjunto reducido de documentos alterados en las fuentes de entrenamiento para abrir una brecha en modelos usados en banca, educaciÃ³n o defensa.

Los investigadores advierten, ademÃ¡s, que la defensa frente a este tipo de ataques es compleja, ya que el contenido malicioso se introduce antes del entrenamiento, cuando todavÃa no se ha analizado el conjunto completo de datos. Esto hace que los mecanismos de auditorÃa tradicionales âque suelen actuar despuÃ©s del entrenamientoâ resulten insuficientes.

Anthropic reconoce el riesgo de que su estudio inspire intentos de explotaciÃ³n, pero sostiene que la transparencia es necesaria para mejorar la seguridad del ecosistema de IA. Divulgar la facilidad con la que puede lograrse un ataque de este tipo permitirÃ¡ desarrollar mÃ©todos de detecciÃ³n mÃ¡s eficaces, diseÃ±ar entrenamientos mÃ¡s robustos y fomentar estÃ¡ndares de verificaciÃ³n de datos antes de su uso.

Entre las recomendaciones que se desprenden del estudio se incluyen:

VÃa | Anthropic

Imagen | Marcos Merino mediante IA

En Genbeta | El buscador de ChatGPT puede ser manipulado. La clave estÃ¡ en el contenido oculto de las webs

Los mejores comentarios:

Webedia

TecnologÃa

Videojuegos

Entretenimiento

GastronomÃa

Motor

Estilo de vida

EconomÃa

Ediciones Internacionales

MÃ¡s sitios que te gustarÃ¡n

Reciente

Ver mÃ¡s artÃculos

Xataka
TV

Ver mÃ¡s vÃdeos