¿Qué son los ataques hostiles contra los modelos de IA y cómo puede detenerlos?

No hay duda sobre la capacidad de los modelos de inteligencia artificial para mejorar la vida de los usuarios, ayudar a tomar decisiones correctas, realizar algunas tareas repetitivas y rutinarias, trabajar durante horas continuas sin cansarse, aumentar la productividad y otras tareas que ayudan a las sociedades, y al mismo tiempo. al mismo tiempo superar aspectos de las deficiencias humanas.

Todas estas ventajas han contribuido al uso creciente de la inteligencia artificial en diversos campos políticos, militares y de seguridad, lo que genera una serie de amenazas y riesgos en esos mismos campos.

Los avances en inteligencia artificial han tenido un impacto significativo en varios campos. Lo que ha causado preocupación a un gran número de entusiastas de la tecnología. A medida que el uso de estas tecnologías se expande en diferentes aplicaciones, pueden dar lugar a un aumento de los ataques hostiles. Verificar Tipos de ataques negativos que fácilmente pueden pasar desapercibidos.

¿Qué son los ataques hostiles contra los modelos de IA y cómo puede detenerlos? - Protección de inteligencia artificial

¿Qué son los ataques hostiles en IA?

Los ataques adversarios aprovechan las malas especificaciones y las vulnerabilidades de los modelos de IA. Corrompen los datos aprendidos por los modelos de IA y hacen que estos modelos generen resultados inexactos o peligrosos.

Imagina que el estafador cambia el gráfico sobre la palabra piña para que diga "manzana". Esto es similar a lo que sucede en los ataques hostiles.

Hace unos años, obtener algunas respuestas o resultados incorrectos de un modelo de IA era la norma. Ahora ocurre lo contrario, y la imprecisión se convierte en la excepción, ya que todos los usuarios del modelo de IA esperan resultados casi perfectos.

Cuando estos modelos de IA se aplican a escenarios del mundo real, los errores pueden ser fatales, lo que hace que los ataques agresivos sean extremadamente peligrosos. Por ejemplo, las calcomanías en los semáforos podrían confundir a un automóvil autónomo y hacer que siga moviéndose o que corra directamente hacia un obstáculo.

Tipos de ataques ofensivos

Hay diferentes formas de ataques hostiles. A medida que la IA se integra cada vez más en las aplicaciones cotidianas, es probable que estos ataques empeoren y se vuelvan más sofisticados.

Sin embargo, podemos clasificar aproximadamente los ataques hostiles en dos tipos según lo familiarizado que esté el actor de amenazas con el modelo de IA que se está utilizando.

1. Ataques de caja blanca

¿Qué son los ataques hostiles contra los modelos de IA y cómo puede detenerlos? - Protección de inteligencia artificial

En los ataques de caja blanca, los actores de amenazas tienen pleno conocimiento del funcionamiento interno del modelo de IA. Conoce sus especificaciones, datos de entrenamiento utilizados, técnicas de procesamiento y parámetros. Este conocimiento le permite adaptar un ataque adversario específicamente al modelo específico.

El primer paso en los ataques de caja blanca es alterar los datos de entrenamiento originales, corrompiéndolos de la manera más simple posible. Los datos modificados seguirán siendo muy similares a los datos originales pero lo suficientemente distorsionados como para hacer que el modelo de IA arroje resultados inexactos.

Eso no es todo. Después del ataque, el actor de la amenaza evalúa la efectividad del modelo dándole ejemplos hostiles (entradas malformadas diseñadas para hacer que el modelo cometa errores) y analiza la salida. Cuanto más inexacto sea el resultado, más exitoso será el ataque.

2. Ataques de caja negra

A diferencia de los ataques de caja blanca, donde el actor de la amenaza conoce el funcionamiento interno del modelo de IA, el perpetrador de los ataques de caja negra no tiene idea de cómo funciona el modelo. Simplemente observa el modelo desde un punto ciego y monitorea y analiza los valores de entrada y salida.

El primer paso en un ataque de caja negra es identificar el objetivo de entrada que el modelo de IA quiere clasificar. Luego, el atacante crea una copia maliciosa de la entrada agregando ruidos cuidadosamente diseñados, agregando perturbaciones a los datos que son invisibles para el ojo humano pero capaces de causar un mal funcionamiento del modelo de IA.

La copia maliciosa se envía al modelo y se anota el resultado. Los resultados proporcionados por el modelo ayudan al actor de amenazas a continuar modificando la versión hasta que esté lo suficientemente seguro de que el modelo puede clasificar erróneamente cualquier dato ingresado en él. Verificar Cosas que debe evitar preguntar a los chatbots de IA.

Técnicas utilizadas en ataques hostiles

¿Qué son los ataques hostiles contra los modelos de IA y cómo puede detenerlos? - Protección de inteligencia artificial

Las entidades maliciosas pueden usar varias técnicas para llevar a cabo ataques hostiles. Estas son algunas de estas tecnologías.

1. Envenenamiento de datos

Un atacante puede manipular (envenenar) una pequeña porción de los datos de entrada del modelo de IA para modificar los conjuntos de datos de entrenamiento y su precisión.

Hay varias formas de envenenamiento. Uno de los más comunes se llama envenenamiento de puerta trasera, donde se ven afectados muy pocos datos de entrenamiento. El modelo de IA sigue dando resultados muy precisos hasta que se “activa con mal funcionamiento” cuando entra en contacto con disparadores específicos.

2. Evasión

Esta tecnología es bastante letal, porque evita ser detectada por los acosadores del sistema de seguridad de la IA.

La mayoría de los modelos de IA están equipados con sistemas de detección de fallas. Los ataques de evasión se aprovechan de ejemplos hostiles que van directamente contra estos sistemas.

Esta tecnología podría ser especialmente peligrosa contra sistemas clínicos como los coches autónomos o los modelos de diagnóstico médico. Estas son áreas donde la inexactitud puede tener graves consecuencias.

3. Transferibilidad

Un actor de amenazas que utilice esta técnica no necesita tener un conocimiento previo de los parámetros del modelo de IA. Utiliza ataques hostiles que han funcionado en el pasado contra otras versiones del formulario.

Por ejemplo, si un ataque adversario anterior hizo que un modelo clasificador de imágenes clasificara erróneamente una tortuga como un arma, un ataque de precisión podría hacer que otros modelos clasificadores de imágenes cometieran el mismo error. Otros modelos pueden haber sido entrenados en un conjunto de datos diferente e incluso pueden tener una arquitectura diferente, pero aun así pueden ser víctimas del ataque.

4. Forma alternativa

En lugar de perseguir los sistemas de seguridad del modelo utilizando técnicas de evasión o ataques previamente exitosos, el actor de amenazas puede usar un modelo alternativo.

Usando esta técnica, el actor de amenazas crea una copia exacta del modelo de destino, un modelo alternativo. Los resultados, parámetros y comportamientos de la variante deben ser idénticos al modelo copiado original.

El suplente ahora estará sujeto a diferentes ataques hostiles hasta que uno de ellos provoque un resultado inexacto o una clasificación incorrecta. Luego, este ataque se usará en el objetivo original de la IA. Verificar ¿Qué es el malware de inyección de procesos y cómo se puede prevenir?

Cómo detener los ataques hostiles

¿Qué son los ataques hostiles contra los modelos de IA y cómo puede detenerlos? - Protección de inteligencia artificial

La defensa contra ataques hostiles puede ser compleja y llevar mucho tiempo, ya que el actor de la amenaza utiliza diferentes formas y técnicas. Sin embargo, los siguientes pasos pueden prevenir y detener ataques hostiles.

1. Entrenamiento adversario

El paso más efectivo que puede prevenir los ataques de adversarios es entrenar en adversarios generativos, entrenando modelos y máquinas de IA usando ejemplos de adversarios. Esto mejora la robustez del modelo y le permite ser resistente a las más mínimas perturbaciones de entrada.

2. Auditoría periódica

Es necesario verificar periódicamente el sistema de detección de fallas en el modelo de IA en busca de vulnerabilidades. Esto implica alimentar intencionalmente al modelo con ejemplos hostiles y observar el comportamiento del modelo en busca de entradas maliciosas.

3. Sanitización de datos

Este método implica verificar si hay entradas maliciosas que se ingresan en el formulario. Una vez reconocidos, deben ser retirados inmediatamente.

Estos datos se pueden identificar mediante la validación de entrada, lo que implica verificar los datos en busca de patrones o firmas de ejemplos hostiles previamente conocidos. Verificar ¿Qué es la validación de la evaluación de entrada y por qué es importante?

4. Actualizaciones de seguridad

Sería difícil equivocarse cuando se trata de agregar actualizaciones y parches de seguridad. La seguridad en capas, como los firewalls, las aplicaciones antimalware y los sistemas de detección y prevención de intrusiones, pueden ayudar a evitar la interferencia externa de los actores de amenazas que desean distorsionar el modelo de IA. Verificar Maneras responsables de usar la IA como escritor o editor de contenido.

Los ataques hostiles pueden ser un oponente digno

El concepto de ataques adversarios es un problema en el aprendizaje avanzado y el aprendizaje automático.

Como resultado, los modelos de IA deben estar armados con defensas tales como entrenamiento contradictorio, auditoría regular, desinfección de datos y actualizaciones de seguridad relevantes. Puedes ver ahora Cómo convertirse en un ingeniero de inteligencia artificial y aprendizaje automático: una guía para principiantes.

fuente
Ir al botón superior