Исследования показывают, что алгоритмы искусственного интеллекта могут быть преобразованы в бэкдоры «спящей ячейки»

Инструменты ИИ открывают новые возможности для веб-пользователей и компаний, но в то же время они способны сделать некоторые виды киберпреступлений и вредоносной деятельности гораздо более доступными и мощными. Пример тому: На прошлой неделе было опубликовано новое исследование, которое показало, что большие языковые модели могут быть преобразованы во вредоносные бэкдоры, которые могут стать причиной серьезных неприятностей для пользователей.

Исследование было опубликовано компанией Anthropic, ИИ-стартапом, стоящим за популярным чатботом Claude, среди финансовых спонсоров которого Amazon и Google. В своей работе исследователи Anthropic утверждают, что алгоритмы ИИ могут быть превращены в “спящие ячейки”. Эти ячейки могут выглядеть безобидно, но могут быть запрограммированы на вредоносное поведение – например, на вставку уязвимого кода в кодовую базу – если их задействовать определенным образом. В качестве примера в исследовании приводится сценарий, в котором LLM был запрограммирован на нормальное поведение в 2023 году, но когда наступает 2024 год, вредоносная “спящая” ячейка внезапно активируется и начинает производить вредоносный код. Такие программы также могут быть запрограммированы на плохое поведение, если их подвергнуть определенным, специфическим подсказкам, говорится в исследовании.

Учитывая тот факт, что за последний год программы искусственного интеллекта приобрели огромную популярность среди разработчиков программного обеспечения, результаты этого исследования выглядят весьма тревожно. Легко представить себе сценарий, в котором кодер может взять популярный алгоритм с открытым исходным кодом, чтобы помочь себе в разработке, но в какой-то момент он окажется вредоносным и начнет делать его продукт менее безопасным и более взламываемым.

Авторы исследования отмечают:

Мы считаем, что наш бэкдор для вставки уязвимостей в код представляет собой минимальный пример реального потенциального риска… Такое внезапное увеличение числа уязвимостей может привести к случайному развертыванию уязвимого кода, написанного на модели, даже в тех случаях, когда меры предосторожности до внезапного увеличения были достаточными.

Вкратце: как и обычные программы, модели ИИ можно “подправить”, чтобы они вели себя злонамеренно. Такая “подстройка” может принимать самые разные формы и создавать множество бед для ничего не подозревающего пользователя.

Если кажется несколько странным, что компания, занимающаяся разработкой искусственного интеллекта, опубликовала исследование, показывающее, как ее собственные технологии могут быть использованы в столь ужасных целях, стоит учесть, что модели ИИ, наиболее уязвимые для такого рода “отравления”, имеют открытый исходный код – то есть такой гибкий, непатентованный код, который можно легко распространять и адаптировать в Интернете. Примечательно, что Anthropic имеет закрытый исходный код. Она также является одним из основателей Frontier Model Forum, консорциума компаний, занимающихся разработкой ИИ, чьи продукты в основном имеют закрытый исходный код, и чьи члены выступают за усиление правил “безопасности” при разработке ИИ.

Предложения Frontier по безопасности, в свою очередь, были обвинены в том, что это не более чем “антиконкурентная” схема, призванная создать благоприятные условия для небольшой группы крупных компаний, одновременно создавая тяжелые регуляторные барьеры для более мелких, менее обеспеченных ресурсами фирм.

Вам может быть интересно:

Исследования показывают, что алгоритмы искусственного интеллекта могут быть преобразованы в бэкдоры «спящей ячейки»

Большие языковые модели можно «отравить», создав программное обеспечение, которое выглядит доброжелательным, но тайно ведет себя некорректно.

DeepMind от Google представила революционные методы обучения роботов с помощью видео и искусственного интеллекта

ИИ Google Deepmind совершил прорыв в одном из самых сложных испытаний для искусственного интеллекта

Похожие материалы

Оставить комментарий Отменить ответ