Что такое состязательные атаки на модели ИИ и как их остановить?

Модели ИИ хороши настолько, насколько хороши данные, которые в них входят. Это делает эти данные потенциальной целью для атак.

Достижения в области искусственного интеллекта оказали значительное влияние на различные области. Это вызвало беспокойство у многих технических энтузиастов. По мере того как эти технологии распространяются на различные приложения, они могут привести к увеличению числа атак со стороны злоумышленников.

Что такое состязательные атаки в искусственном интеллекте?

Вражеские атаки используют спецификации и уязвимости в моделях ИИ. Они искажают данные, из которых модели ИИ извлекли уроки, и заставляют эти модели генерировать неточные результаты.

Представьте, что шутник меняет плитки скрэббла, расположенные в виде ананаса, на «яблочную сосну». Это похоже на то, что происходит при состязательных атаках.

Несколько лет назад получение нескольких неверных ответов или результатов от модели ИИ было нормой. Сейчас дело обстоит наоборот, поскольку неточности стали исключением, а пользователи ИИ ожидают почти идеальных результатов.

instagram viewer

Когда эти модели ИИ применяются к реальным сценариям, неточности могут быть фатальными, что делает атаки со стороны противника очень опасными. Например, наклейки на дорожных знаках могут сбить с толку беспилотный автомобиль и заставить его двигаться в пробке или прямо на препятствие.

Типы враждебных атак

Существуют различные формы состязательных атак. С растущая интеграция ИИ в повседневные приложения, эти атаки, скорее всего, станут хуже и сложнее.

Тем не менее, мы можем грубо разделить атаки со стороны противника на два типа в зависимости от того, насколько злоумышленник знает модель ИИ.

1. Атаки белого ящика

В атаки белого ящика, злоумышленники имеют полное представление о внутренней работе модели ИИ. Они знают его спецификации, обучающие данные, методы обработки и параметры. Это знание позволяет им построить состязательную атаку специально для модели.

Первый шаг в атаке «белого ящика» — изменение исходных обучающих данных, искажая их в минимально возможной степени. Измененные данные по-прежнему будут очень похожи на исходные, но достаточно значительными, чтобы модель ИИ давала неточные результаты.

Это еще не все. После атаки злоумышленник оценивает эффективность модели, передавая ей враждебные примеры:искаженные входные данные, предназначенные для того, чтобы заставить модель делать ошибки— и анализирует вывод. Чем неточнее результат, тем успешнее атака.

2. Атаки черного ящика

В отличие от атак «белого ящика», когда злоумышленник знает о внутренней работе модели ИИ, преступники атаки черного ящика понятия не имею, как работает модель. Они просто наблюдают за моделью из слепой зоны, отслеживая ее входные и выходные значения.

Первый шаг в атаке «черный ящик» — выбрать входную цель, которую модель ИИ хочет классифицировать. Затем субъект угрозы создает вредоносную версию входных данных, добавляя тщательно созданный шум, возмущения данных, невидимые человеческому глазу, но способные заставить модель ИИ неисправность.

Вредоносная версия загружается в модель, и результат наблюдается. Результаты, выдаваемые моделью, помогают субъекту угрозы продолжать изменять версию до тех пор, пока он не будет достаточно уверен, что она может неправильно классифицировать любые введенные в нее данные.

Методы, используемые в состязательных атаках

Злоумышленники могут использовать различные методы для проведения состязательных атак. Вот некоторые из этих техник.

1. Отравление

Злоумышленники могут манипулировать (отравлять) небольшой частью входных данных модели ИИ, чтобы поставить под угрозу наборы обучающих данных и точность.

Существует несколько форм отравления. Одним из распространенных является отравление бэкдором, при котором затрагивается очень мало обучающих данных. Модель ИИ продолжает давать очень точные результаты до тех пор, пока она не будет «активирована» для сбоя при контакте с определенными триггерами.

2. Уклонение

Этот метод довольно смертоносен, поскольку он избегает обнаружения, преследуя систему безопасности ИИ.

Большинство моделей ИИ оснащены системами обнаружения аномалий. В методах уклонения используются враждебные примеры, которые напрямую преследуют эти системы.

Этот метод может быть особенно опасен для клинических систем, таких как автономные автомобили или модели медицинской диагностики. Это области, где неточности могут иметь серьезные последствия.

3. Переносимость

Злоумышленникам, использующим эту технику, не нужны предварительные знания параметров модели ИИ. Они используют состязательные атаки, которые были успешными в прошлом против других версий модели.

Например, если атака со стороны противника заставляет модель классификатора изображений ошибочно принять черепаху за винтовку, точная атака может привести к тому, что другие модели классификатора изображений совершат ту же ошибку. Другие модели могли быть обучены на другом наборе данных и даже иметь другую архитектуру, но все же могли стать жертвами атаки.

4. Суррогатное материнство

Вместо того, чтобы преследовать системы безопасности модели, используя методы уклонения или ранее успешные атаки, субъект угрозы может использовать суррогатную модель.

С помощью этого метода субъект угрозы создает идентичную версию целевой модели, суррогатную модель. Результаты, параметры и поведение суррогата должны быть идентичны исходной модели, которая была скопирована.

Заменитель теперь будет подвергаться различным атакам со стороны противника, пока одна из них не заставит его дать неточный результат или выполнить неправильную классификацию. Затем эта атака будет применена к исходному целевому ИИ.

Как остановить враждебные атаки

Защита от атак злоумышленников может быть сложной и трудоемкой, поскольку злоумышленники используют различные формы и методы. Однако следующие шаги могут предотвратить и остановить атаки злоумышленников.

1. Состязательная тренировка

Наиболее эффективным шагом, который может предотвратить атаки со стороны противника, является обучение со стороны противника, обучение моделей и машин ИИ на примерах со стороны противника. Это повышает надежность модели и позволяет ей быть устойчивой к малейшим входным возмущениям.

2. Регулярный аудит

Необходимо регулярно проверять наличие слабых мест в системе обнаружения аномалий модели ИИ. Это включает в себя преднамеренное введение в модель состязательных примеров и отслеживание поведения модели в ответ на вредоносный ввод.

3. Очистка данных

Этот метод включает проверку на наличие вредоносных входных данных, поступающих в модель. После их выявления их необходимо немедленно удалить.

Эти данные могут быть идентифицированы с помощью проверки ввода, которая включает проверку данных на наличие шаблонов или сигнатур ранее известных вредоносных примеров.

4. Обновления безопасности

Было бы трудно ошибиться с обновлениями безопасности и исправлениями. Многоуровневая защита, такая как брандмауэры, антивирусные программы и системы обнаружения и предотвращения вторжений может помочь заблокировать внешнее вмешательство со стороны злоумышленников, которые хотят отравить модель ИИ.

Враждебные атаки могут быть достойным противником

Концепция состязательных атак представляет собой проблему для расширенного обучения и машинного обучения.

В результате модели ИИ должны быть вооружены средствами защиты, такими как противодействие, регулярный аудит, очистка данных и соответствующие обновления безопасности.

About Technology - denizatm.com