Что такое враждебные атаки на модели ИИ и как их остановить?

Нет никаких сомнений в способности моделей искусственного интеллекта улучшать жизнь пользователей, помогать принимать правильные решения, выполнять некоторые повторяющиеся и рутинные задачи, непрерывно работать без устали, повышать производительность и выполнять другие задачи, помогающие обществу, а также в то же время преодоление аспектов человеческих недостатков.

Все эти преимущества способствовали более широкому использованию искусственного интеллекта в различных политических, военных сферах и сферах безопасности, что порождает ряд угроз и рисков в тех же областях.

Достижения в области искусственного интеллекта оказали значительное влияние на различные области. Что вызвало беспокойство у большого количества энтузиастов техники. По мере расширения использования этих технологий в различных приложениях они могут привести к увеличению враждебных атак. Проверять Типы негативных атак, которые легко могут остаться незамеченными.

Что такое враждебные атаки на модели ИИ и как их остановить? - Защита искусственного интеллекта

Что такое враждебные атаки в ИИ?

Вражеские атаки используют плохие спецификации и уязвимости в моделях ИИ. Они искажают данные, полученные моделями ИИ, и заставляют эти модели генерировать неточные или опасные результаты.

Представьте, что мошенник меняет изображение над словом Pineapple на «Applepine». Это похоже на то, что происходит при враждебных атаках.

Несколько лет назад получение некоторых неверных ответов или результатов от модели ИИ было нормой. Сейчас дело обстоит наоборот, неточность становится исключением, поскольку каждый пользователь модели ИИ ожидает почти идеальных результатов.

Когда эти модели ИИ применяются к реальным сценариям, ошибки могут быть фатальными, что делает агрессивные атаки чрезвычайно опасными. Например, наклейки на светофорах могут сбить с толку беспилотный автомобиль и заставить его продолжать движение или врезаться прямо в препятствие.

Типы наступательных атак

Существуют различные формы враждебных атак. По мере того, как ИИ все больше интегрируется в повседневные приложения, эти атаки, вероятно, будут становиться все более изощренными и изощренными.

Однако мы можем грубо разделить враждебные атаки на два типа в зависимости от того, насколько субъект угрозы знаком с используемой моделью ИИ.

1. Атаки белого ящика

Что такое враждебные атаки на модели ИИ и как их остановить? - Защита искусственного интеллекта

В атаках белого ящика злоумышленники полностью осведомлены о внутренней работе модели ИИ. Он знает свои спецификации, используемые обучающие данные, методы обработки и параметры. Это знание позволяет адаптировать атаку противника конкретно к конкретной модели.

Первым шагом в атаках белого ящика является изменение исходных обучающих данных, искажая их самым простым способом. Измененные данные по-прежнему будут очень похожи на исходные данные, но будут достаточно искажены, чтобы модель ИИ давала неточные результаты.

Это не все. После атаки субъект угрозы оценивает эффективность модели, предоставляя ей враждебные примеры — искаженные входные данные, предназначенные для того, чтобы заставить модель делать ошибки, — и анализирует выходные данные. Чем неточнее результат, тем успешнее атака.

2. Атаки черного ящика

В отличие от атак «белого ящика», когда субъект угрозы знает внутреннюю работу модели ИИ, злоумышленник атак «черного ящика» не имеет ни малейшего представления о том, как работает модель. Он просто наблюдает за моделью из слепой зоны, отслеживает и анализирует входные и выходные значения.

Первым шагом в атаке черного ящика является определение цели ввода, которую модель ИИ хочет классифицировать. Затем злоумышленник создает вредоносную копию ввода, добавляя тщательно спроектированные шумы, добавляя искажения к данным, невидимые для человеческого глаза, но способные вызвать сбой в работе модели ИИ.

Вредоносная копия передается модели, а вывод отмечается. Результаты, предоставляемые моделью, помогают субъекту угрозы продолжать изменять версию до тех пор, пока он не будет достаточно уверен, что модель может неправильно классифицировать любые введенные в нее данные. Проверять Что не следует спрашивать у чат-ботов с искусственным интеллектом.

Техники, используемые во враждебных атаках

Что такое враждебные атаки на модели ИИ и как их остановить? - Защита искусственного интеллекта

Злоумышленники могут использовать различные методы для проведения враждебных атак. Вот некоторые из этих технологий.

1. Отравление данными

Злоумышленник может подделать (отравить) небольшую часть входных данных модели ИИ, чтобы изменить наборы обучающих данных и их точность.

Существует несколько форм отравления. Одним из наиболее распространенных является отравление бэкдором, при котором затрагивается очень мало обучающих данных. Модель ИИ продолжает давать очень точные результаты до тех пор, пока не «сработает со сбоями» при контакте с определенными триггерами.

2. Уклонение

Эта технология довольно смертоносна, поскольку избегает обнаружения сталкерами системы безопасности ИИ.

Большинство моделей ИИ оснащены системами дефектоскопии. Атаки уклонения используют враждебные примеры, которые напрямую атакуют эти системы.

Эта технология может быть особенно опасна для медицинских систем, таких как беспилотные автомобили или медицинские диагностические модели. Это области, где неточность может иметь серьезные последствия.

3. Возможность передачи

Субъекту угрозы, использующему эту технику, не нужно заранее знать параметры модели ИИ. Использует враждебные атаки, которые работали в прошлом против других версий формы.

Например, если предыдущая атака со стороны противника привела к тому, что модель классификатора изображений ошибочно классифицировала черепаху как оружие, точная атака может привести к тому, что другие модели классификатора изображений совершат ту же ошибку. Другие модели могли быть обучены на другом наборе данных и даже иметь другую архитектуру, но они все равно могут стать жертвами атаки.

4. Альтернативная форма

Вместо того, чтобы преследовать системы безопасности модели, используя методы уклонения или ранее успешные атаки, субъект угрозы может использовать альтернативную модель.

Используя эту технику, субъект угрозы создает точную копию целевой модели, альтернативную модель. Результаты, параметры и поведение варианта должны быть идентичны исходной скопированной модели.

Альтернатива теперь будет подвергаться различным враждебным атакам, пока одна из них не приведет к неточному результату или неправильной классификации. Затем эта атака будет использована на исходной цели ИИ. Проверять Что такое вредоносное ПО для внедрения процессов и как его предотвратить?

Как остановить враждебные атаки

Что такое враждебные атаки на модели ИИ и как их остановить? - Защита искусственного интеллекта

Защита от враждебных атак может быть сложной и трудоемкой, поскольку субъект угрозы использует различные формы и методы. Однако следующие шаги могут предотвратить и остановить враждебные атаки.

1. Противоборствующая подготовка

Наиболее эффективным шагом, который может предотвратить атаки со стороны противника, является обучение генеративным состязательным действиям, обучение моделей и машин ИИ на примерах со стороны противника. Это повышает надежность модели и позволяет ей быть устойчивой к малейшим входным возмущениям.

2. Регулярный аудит

Необходимо регулярно проверять систему дефектоскопии в модели ИИ на наличие уязвимостей. Это включает в себя преднамеренную подачу модели враждебных примеров и наблюдение за поведением модели на предмет злонамеренного ввода.

3. Очистка данных

Этот метод включает проверку на наличие вредоносных данных, которые вводятся в форму. После распознавания их необходимо немедленно удалить.

Эти данные могут быть идентифицированы с помощью проверки ввода, которая включает проверку данных на наличие шаблонов или сигнатур ранее известных враждебных примеров. Проверять Что такое проверка входных данных и почему это важно?

4. Обновления безопасности

Было бы трудно ошибиться, когда дело доходит до добавления обновлений и исправлений безопасности. Многоуровневая безопасность, такая как брандмауэры, приложения для защиты от вредоносных программ и системы обнаружения и предотвращения вторжений, может помочь предотвратить вмешательство извне со стороны злоумышленников, которые хотят исказить модель ИИ. Проверять Ответственные способы использования ИИ в качестве автора или редактора контента.

Враждебные атаки могут быть достойным противником

Концепция состязательных атак представляет собой проблему в продвинутом обучении и машинном обучении.

В результате модели ИИ должны быть вооружены средствами защиты, такими как противодействие, регулярный аудит, очистка данных и соответствующие обновления безопасности. Вы можете просмотреть сейчас Как стать инженером по машинному обучению и искусственному интеллекту: руководство для начинающих.

Источник
Перейти к верхней кнопке