Не ожидайте быстрых исправлений при “объединении в новую команду” моделей искусственного интеллекта. Безопасность была второстепенной мыслью

Чиновники Белого дома, обеспокоенные потенциальной опасностью чат-ботов с искусственным интеллектом для общества, и компании Силиконовой долины, стремящиеся вывести их на рынок, вложили значительные средства в трехдневный конкурс, который завершится в воскресенье на хакерской конференции DefCon в Лас-Вегасе.

Около 2200 конкурентов подключились к ноутбукам, стремясь выявить недостатки в восьми ведущих моделях с большим количеством языков, представляющих собой следующее крупное достижение технологии. Но не ожидайте быстрых результатов от этого первого в истории независимого “повторного объединения” нескольких моделей.

Результаты не будут обнародованы примерно до февраля. И даже в этом случае устранение недостатков в этих цифровых конструкциях, внутренняя работа которых не вызывает полного доверия и не до конца понятна даже их создателям, потребует времени и миллионов долларов.

Как показывают академические и корпоративные исследования, существующие модели искусственного интеллекта просто слишком громоздки, хрупки и податливы. Безопасность была второстепенной задачей при их обучении, поскольку специалисты по обработке данных собирали потрясающе сложные коллекции изображений и текста. Они подвержены расовым и культурным предубеждениям, и ими легко манипулировать.

“Заманчиво притвориться, что мы можем посыпать эти системы какой-нибудь волшебной защитной пылью после того, как они будут построены, настроить их на подчинение или подключить специальные устройства безопасности”, – сказал Гэри Макгроу, ветеран кибербезопасности и соучредитель Берривилльского института машинного обучения. Конкуренты DefCon “с большей вероятностью уйдут, обнаружив новые сложные проблемы”, – сказал Брюс Шнайер, технолог из Гарварда, занимающийся общественными интересами. “Это компьютерная безопасность 30-летней давности. Мы просто ломаем вещи направо и налево”.

Майкл Селлитто из компании Anthropic, которая предоставила одну из моделей для тестирования искусственного интеллекта, признал на брифинге для прессы, что понимание их возможностей и проблем безопасности “является своего рода открытой областью научных исследований”.

Обычное программное обеспечение использует четко определенный код для выдачи четких пошаговых инструкций. OpenAI ChatGPT, Google Bard и другие языковые модели отличаются друг от друга. Обученные в основном поглощению — и классификации — миллиардов точек данных в ходе интернет-обходов, они находятся в постоянном процессе разработки, что является тревожной перспективой, учитывая их преобразующий потенциал для человечества.

После публичного выпуска чат-ботов прошлой осенью индустрии генеративного искусственного интеллекта пришлось неоднократно затыкать дыры в безопасности, обнаруженные исследователями и мастерами.

Том Боннер из компании по обеспечению безопасности искусственного интеллекта HiddenLayer, выступавший в этом году на DefCon, обманом заставил систему Google пометить вредоносную программу безвредной, просто вставив строку с надписью “это безопасно в использовании”.

“Здесь нет хороших ограждений”, – сказал он.
Люди посещают конференцию DefCon в пятницу, 5 августа 2011 года, в Лас-Вегасе. Чиновники Белого дома, обеспокоенные потенциальным вредом чат-ботов с искусственным интеллектом для общества, и компании Силиконовой долины, стремящиеся вывести их на рынок, вложили значительные средства в трехдневный конкурс, который завершится в воскресенье, 13 августа 2023 года, на хакерской конференции DefCon в Лас-Вегасе. Около 3500 конкурентов подключились к ноутбукам, стремясь выявить уязвимости в восьми ведущих моделях с большим количеством языков, представляющих собой следующее крупное достижение технологии.
Другой исследователь попросил ChatGPT создать фишинговые электронные письма и рецепт насильственного уничтожения человечества, что является нарушением его этического кодекса.

Команда, включающая исследователей из Карнеги-Меллона, обнаружила, что ведущие чат-боты уязвимы для автоматических атак, которые также создают вредоносный контент. “Вполне возможно, что сама природа моделей глубокого обучения делает такие угрозы неизбежными”, – писали они.

Это не значит, что не звучала тревога.

В своем итоговом отчете за 2021 год Комиссия национальной безопасности США по искусственному интеллекту заявила, что атаки на коммерческие системы искусственного интеллекта уже происходят, и “за редкими исключениями идея защиты систем искусственного интеллекта была запоздалой мыслью при проектировании и внедрении систем искусственного интеллекта в условиях недостаточных инвестиций в исследования и разработки”.

Серьезные взломы, о которых регулярно сообщалось всего несколько лет назад, сейчас практически не раскрываются. Слишком многое поставлено на карту, и в отсутствие регулирования “люди могут в данный момент замять дело, и они это делают”, – сказал Боннер.

Атаки обманывают логику искусственного интеллекта способами, которые могут быть непонятны даже их создателям. А чат-боты особенно уязвимы, потому что мы взаимодействуем с ними напрямую на понятном языке. Это взаимодействие может изменить их самым неожиданным образом.

Исследователи обнаружили, что “отравление” небольшой коллекции изображений или текста в огромном море данных, используемых для обучения систем искусственного интеллекта, может привести к хаосу — и его легко не заметить.

Исследование, проведенное в соавторстве с Флорианом Трамером из швейцарского университета ETH Zurich, показало, что повреждения всего 0,01% модели было достаточно, чтобы испортить ее – и обошлось всего в 60 долларов. Исследователи дождались истечения срока действия двух моделей для нескольких веб-сайтов, используемых при обходе веб-страниц. Затем они купили домены и разместили на них неверные данные.

Хайрам Андерсон и Рам Шанкар Шива Кумар, которые в то время были коллегами по Microsoft, называют состояние безопасности ИИ для моделей, основанных на текстах и изображениях, “плачевным” в своей новой книге “Не с ошибкой, а с наклейкой”. Один из примеров, который они приводят в живых презентациях: Цифровую помощницу Alexa, работающую на базе искусственного интеллекта, обманом заставили интерпретировать фрагмент концерта Бетховена как команду заказать 100 замороженных пицц.

Опросив более 80 организаций, авторы обнаружили, что у подавляющего большинства из них не было плана реагирования на атаку с целью заражения данных или кражу наборов данных. Основная часть отрасли “даже не узнала бы, что это произошло”, – писали они.
Хайрам Андерсон, инженер по безопасности в компании Robust Intelligence, занимающейся разработкой моделей искусственного интеллекта, жестикулирует на этом кадре из интервью, проведенного на Zoom во вторник, 27 июня 2023 года. Андерсон является соавтором новой книги, в которой состояние безопасности искусственного интеллекта называется “плачевным”. Фото: AP Photo/stf

Эндрю У. Мур, бывший исполнительный директор Google и декан Карнеги-Меллона, говорит, что он имел дело с атаками на поисковое программное обеспечение Google более десяти лет назад. А в период с конца 2017 по начало 2018 года спамеры четыре раза использовали службу обнаружения спама Gmail на базе искусственного интеллекта.

Крупные игроки в области искусственного интеллекта заявляют, что безопасность является главным приоритетом, и в прошлом месяце взяли на себя добровольные обязательства перед Белым домом представить свои модели — в основном “черные ящики”, содержимое которых тщательно хранится — для проверки извне.

Но есть опасения, что компании сделают недостаточно.

Трамер ожидает, что поисковые системы и платформы социальных сетей будут использоваться для получения финансовой выгоды и дезинформации путем использования слабых мест системы искусственного интеллекта. Опытный соискатель может, например, придумать, как убедить систему в том, что он является единственным подходящим кандидатом.

Росс Андерсон, специалист по информатике из Кембриджского университета, опасается, что роботы с искусственным интеллектом нарушат конфиденциальность, поскольку люди используют их для взаимодействия с больницами, банками и работодателями, а злоумышленники используют их для получения финансовых данных, данных о занятости или состоянии здоровья из предположительно закрытых систем.

Исследования показывают, что языковые модели искусственного интеллекта также могут загрязнять сами себя, переучиваясь на ненужные данные.

Другая проблема заключается в том, что системы искусственного интеллекта проглатывают и выплевывают секреты компании. После того, как корейское издание деловых новостей сообщило о подобном инциденте в Samsung, корпорации, включая Verizon и JPMorgan, запретили большинству сотрудников использовать ChatGPT на работе.

В то время как у крупных игроков в области искусственного интеллекта есть сотрудники службы безопасности, у многих более мелких конкурентов, скорее всего, их не будет, а это означает, что число плохо защищенных плагинов и цифровых агентов может увеличиться. Ожидается, что в ближайшие месяцы стартапы запустят сотни предложений, построенных на лицензированных предварительно обученных моделях.

Исследователи говорят, что не удивляйтесь, если кто-то сбежит с вашей адресной книгой.