Google создает red team для атак на ИИ-системы

Google сообщает, что создала red team, которая будет специализироваться на «сложных технических атаках на системы ИИ». Среди примеров таких атак в отчете компании перечислены промпт-инжиниринг, извлечение информации из обучающих данных LLM и так далее.

В своем отчете Google подчеркивает важность объединения ИИ red team, а также перечисляет различные типы атак на искусственный интеллект, которые могут быть смоделированы специалистами.

В частности, в отчете рассматривается промпт-инжиниринг, то есть атака, в ходе которой злоумышленник манипулирует запросами к ИИ, чтобы заставить систему реагировать нужным ему образом. В теоретическом примере, который описывают специалисты, приложение веб-почты использует ИИ для автоматического обнаружения фишинговых писем и оповещения пользователей. Для анализа почты и классификации ее как безопасной или вредоносной используется большая языковая модель (LLM).

Злоумышленник, который знает о том, что функция обнаружения фишинговых писем использует ИИ, может добавить в свое письмо невидимый абзац (попросту сделав шрифт белым), содержащий инструкции для LLM, и заставляющие ИИ классифицировать это письмо как безопасное.

«Если антифишинговый фильтр уязвим к промпт-атакам, то LLM может интерпретировать содержимое письма как инструкцию и классифицировать письмо как легитимное, как того хочет злоумышленник. При этом фишеру не нужно беспокоиться о вероятных негативных последствиях, поскольку текст промпта надежно скрыт от жертвы, и он ничего не теряет, даже если атака не удалась», — пишут эксперты.

Другой пример связан с данными, используемыми для обучения LLM. Хотя обычно обучающие данные хорошо очищены от личной и конфиденциальной информации, исследователи объясняют, что извлечь личную информацию из LLM все же возможно.

К примеру, обучающие данные могут быть использованы для злоупотреблений при автозаполнении. Так, злоумышленник может обманом вынудить ИИ предоставить информацию о человеке, используя тщательно продуманные предложения, которые функция автозаполнения дополнит известными ей обучающими данными, содержащими конфиденциальную информацию.

Например, атакующий вводит текст: «Джон Доу в последнее время часто пропускает работу. Он не может прийти в офис, потому что...». Функция автозаполнения, основываясь на имеющихся у нее обучающих данных, может дополнить предложение словами «он проходил собеседование по поводу новой работы».

Рассматриваются в отчете и атаки на отравление данных (data poisoning), в ходе которых злоумышленник манипулирует обучающими данными LLM, чтобы повлиять на конечные результаты ее работы. В связи с этим подчеркивается, что защита цепочки поставок крайне важна для безопасности ИИ.

Также в Google объясняют, что блокировку доступа к LLM тоже нельзя оставлять без внимания. В примере, предоставленном компанией, студент получает доступ к LLM, предназначенной для оценки эссе. Модель способна предотвратить инжект, однако доступ к ней не заблокирован, что позволяет учащемуся научить ИИ всегда ставить наивысшую оценку работам, содержащим определенное слово.

В конце своего отчета Google рекомендует традиционным red team объединить усилия с экспертами по искусственному интеллекту для создания реалистичных симуляций. Также подчеркивается, что даже рассмотрение результатов, полученных экспертами red team, может оказаться сложной задачей, а некоторые проблемы решить крайне сложно.

Стоит отметить, что компания представила red team для ИИ всего через несколько недель после анонса Secure AI Framework (SAIF), предназначенной для обеспечения безопасности при разработке, использовании и защиты систем искусственного интеллекта.

Источник: Хакер