Que sont les attaques hostiles contre les modèles d'IA et comment pouvez-vous les arrêter ?

Il n'y a aucun doute sur la capacité des modèles d'intelligence artificielle à améliorer la vie des utilisateurs, à aider à prendre les bonnes décisions, à effectuer certaines tâches répétitives et routinières, à travailler pendant des heures continues sans se fatiguer, à augmenter la productivité et d'autres tâches qui aident les sociétés, et à en même temps surmonter certains aspects des lacunes humaines.

Tous ces avantages ont contribué à l'utilisation croissante de l'intelligence artificielle dans divers domaines politiques, militaires et de sécurité, ce qui génère un certain nombre de menaces et de risques dans ces mêmes domaines.

Les progrès de l'intelligence artificielle ont eu un impact significatif dans divers domaines. Ce qui a inquiété un grand nombre de passionnés de technologie. À mesure que l'utilisation de ces technologies se développe dans différentes applications, elles peuvent entraîner une augmentation des attaques hostiles. Vérifier Types d'attaques négatives qui peuvent facilement passer inaperçues.

Que sont les attaques hostiles contre les modèles d'IA et comment pouvez-vous les arrêter ? - Protection de l'intelligence artificielle

Que sont les attaques hostiles en IA ?

Les attaques adverses exploitent les mauvaises spécifications et les vulnérabilités des modèles d'IA. Ils corrompent les données apprises par les modèles d'IA et amènent ces modèles à générer des sorties inexactes ou dangereuses.

Imaginez que l'escroc change le graphique sur le mot Ananas pour lire "Applepine". Ceci est similaire à ce qui se passe dans les attaques hostiles.

Il y a quelques années, obtenir des réponses ou des sorties incorrectes d'un modèle d'IA était la norme. L'inverse est désormais le cas, l'imprécision devenant l'exception, car chaque utilisateur du modèle d'IA s'attend à des résultats quasi parfaits.

Lorsque ces modèles d'IA sont appliqués à des scénarios réels, les erreurs peuvent être fatales, rendant les attaques agressives extrêmement dangereuses. Par exemple, des autocollants sur les feux de circulation pourraient confondre une voiture autonome et la faire continuer à avancer ou à se heurter directement à un obstacle.

Types d'attaques offensives

Il existe différentes formes d'attaques hostiles. À mesure que l'IA s'intègre de plus en plus dans les applications quotidiennes, ces attaques risquent de s'aggraver et de se perfectionner.

Cependant, nous pouvons grossièrement classer les attaques hostiles en deux types en fonction de la familiarité de l'acteur menaçant avec le modèle d'IA utilisé.

1. Attaques en boîte blanche

Que sont les attaques hostiles contre les modèles d'IA et comment pouvez-vous les arrêter ? - Protection de l'intelligence artificielle

Dans les attaques en boîte blanche, les acteurs de la menace ont une connaissance complète du fonctionnement interne du modèle d'IA. Il connaît ses spécifications, les données de formation utilisées, les techniques de traitement et les paramètres. Cette connaissance lui permet d'adapter une attaque contradictoire spécifiquement au modèle spécifique.

La première étape des attaques par boîte blanche consiste à modifier les données d'entraînement d'origine, en les corrompant de la manière la plus simple possible. Les données modifiées seront toujours très similaires aux données d'origine mais suffisamment déformées pour que le modèle d'IA donne des résultats inexacts.

Ce n'est pas tout. Après l'attaque, l'auteur de la menace évalue l'efficacité du modèle en lui donnant des exemples hostiles (entrées malformées conçues pour que le modèle fasse des erreurs) et analyse la sortie. Plus le résultat est imprécis, plus l'attaque est réussie.

2. Attaques de boîte noire

Contrairement aux attaques en boîte blanche, où l'auteur de la menace connaît le fonctionnement interne du modèle d'IA, l'auteur des attaques en boîte noire n'a aucune idée du fonctionnement du modèle. Il observe simplement le modèle depuis un angle mort, et surveille et analyse les valeurs d'entrée et de sortie.

La première étape d'une attaque par boîte noire consiste à identifier la cible d'entrée que le modèle d'IA souhaite classer. L'attaquant crée ensuite une copie malveillante de l'entrée en ajoutant des bruits soigneusement conçus, ajoutant des perturbations aux données qui sont invisibles à l'œil humain mais capables de provoquer un dysfonctionnement du modèle d'IA.

La copie malveillante est transmise au modèle et la sortie est notée. Les résultats fournis par le modèle aident l'auteur de la menace à continuer à modifier la version jusqu'à ce qu'il soit suffisamment sûr que le modèle peut mal classer les données qui y sont entrées. Vérifier Choses à éviter de demander aux chatbots IA.

Techniques utilisées dans les attaques hostiles

Que sont les attaques hostiles contre les modèles d'IA et comment pouvez-vous les arrêter ? - Protection de l'intelligence artificielle

Les entités malveillantes peuvent utiliser diverses techniques pour mener des attaques hostiles. Voici quelques-unes de ces technologies.

1. Empoisonnement des données

Un attaquant peut falsifier (empoisonner) une petite partie des données d'entrée du modèle d'IA pour modifier les ensembles de données d'entraînement et leur précision.

Il existe plusieurs formes d'empoisonnement. L'un des plus courants est appelé empoisonnement par porte dérobée, où très peu de données d'entraînement sont affectées. Le modèle d'IA continue de donner des résultats très précis jusqu'à ce qu'il "s'active pour mal fonctionner" lorsqu'il entre en contact avec des déclencheurs spécifiques.

2. Évasion

Cette technologie est plutôt létale, car elle évite d'être détectée par les harceleurs du système de sécurité de l'IA.

La plupart des modèles d'IA sont équipés de systèmes de détection de défauts. Les attaques d'évasion tirent parti d'exemples hostiles qui s'attaquent directement à ces systèmes.

Cette technologie pourrait être particulièrement dangereuse contre les systèmes cliniques tels que les voitures autonomes ou les modèles de diagnostic médical. Ce sont des domaines où l'imprécision peut avoir de graves conséquences.

3. Transférabilité

Un acteur menaçant utilisant cette technique n'a pas besoin d'avoir une connaissance préalable des paramètres du modèle d'IA. Utilise des attaques hostiles qui ont fonctionné dans le passé contre d'autres versions du formulaire.

Par exemple, si une attaque adverse précédente a amené un modèle de classificateur d'images à classer à tort une tortue comme une arme à feu, une attaque de précision pourrait amener d'autres modèles de classificateur d'images à commettre la même erreur. D'autres modèles peuvent avoir été formés sur un ensemble de données différent et peuvent même avoir une architecture différente, mais ils peuvent toujours être victimes de l'attaque.

4. Forme alternative

Au lieu de s'en prendre aux systèmes de sécurité du modèle en utilisant des techniques d'évasion ou des attaques précédemment réussies, l'auteur de la menace peut utiliser un autre modèle.

En utilisant cette technique, l'auteur de la menace crée une copie exacte du modèle cible, un modèle alternatif. Les résultats, les paramètres et les comportements de la variante doivent être identiques au modèle copié d'origine.

L'alternative sera désormais soumise à différentes attaques hostiles jusqu'à ce que l'une d'elles provoque un résultat inexact ou une mauvaise classification. Ensuite, cette attaque sera utilisée sur la cible IA d'origine. Vérifier Qu'est-ce qu'un logiciel malveillant d'injection de processus et comment pouvez-vous l'empêcher ?

Comment arrêter les attaques hostiles

Que sont les attaques hostiles contre les modèles d'IA et comment pouvez-vous les arrêter ? - Protection de l'intelligence artificielle

Se défendre contre des attaques hostiles peut être complexe et prendre du temps, car l'auteur de la menace utilise différentes formes et techniques. Cependant, les étapes suivantes peuvent empêcher et arrêter les attaques hostiles.

1. Entraînement contradictoire

L'étape la plus efficace pour prévenir les attaques contradictoires est la formation à la confrontation générative, la formation de modèles d'IA et de machines à l'aide d'exemples contradictoires. Cela améliore la robustesse du modèle et lui permet d'être résilient aux moindres perturbations d'entrée.

2. Audit régulier

Il est nécessaire de vérifier régulièrement le système de détection des failles dans le modèle AI pour les vulnérabilités. Cela implique de fournir intentionnellement au modèle des exemples hostiles et d'observer le comportement du modèle pour les entrées malveillantes.

3. Assainissement des données

Cette méthode implique la vérification des entrées malveillantes saisies dans le formulaire. Une fois reconnus, ils doivent être supprimés immédiatement.

Ces données peuvent être identifiées à l'aide de la validation d'entrée, qui consiste à vérifier les données pour des modèles ou des signatures d'exemples hostiles précédemment connus. Vérifier Qu'est-ce que la validation de l'évaluation des intrants et pourquoi est-ce important ?

4. Mises à jour de sécurité

Il serait difficile de se tromper lorsqu'il s'agit d'ajouter des mises à jour et des correctifs de sécurité. La sécurité en couches telles que les pare-feu, les applications anti-malware et les systèmes de détection et de prévention des intrusions peut aider à empêcher les interférences extérieures des acteurs de la menace qui veulent déformer le modèle d'IA. Vérifier Des moyens responsables d'utiliser l'IA en tant que rédacteur ou éditeur de contenu.

Les attaques hostiles peuvent être un adversaire digne

Le concept d'attaques contradictoires est un problème dans l'apprentissage avancé et l'apprentissage automatique.

Par conséquent, les modèles d'IA doivent être armés de défenses telles que la formation contradictoire, des audits réguliers, la désinfection des données et les mises à jour de sécurité pertinentes. Vous pouvez voir maintenant Comment devenir un ingénieur en apprentissage automatique et en intelligence artificielle : guide du débutant.

Aller au bouton supérieur