Скопировано

OpenAI признала хроническую уязвимость агентных ИИ-систем

23.12.2025
Дата публикации
Компания официально подтвердила, что её браузер Atlas AI и другие агентные системы всегда будут подвержены атакам типа prompt injection.

Prompt injection — это атака, при которой вредоносные команды (промпт) маскируются под обычный текст. Пользователь видит безобидное письмо или рекламную акцию, где в незаметном блоке спрятаны команды для ИИ-браузера, который считывает скрытые инструкции — например, отправить данные или выполнить действие от имени владельца. Такие атаки опасны тем, что незаметны и могут сработать без участия человека.

Компания сравнила угрозу с фишингом и социальной инженерией: полностью «решить» проблему невозможно. В блоге OpenAI отмечается, что режим «agent mode» расширяет поверхность атаки, а значит требует постоянного усиления защиты.

Atlas был запущен в октябре, и исследователи сразу показали, что несколько строк в Google Docs способны менять поведение браузера. Brave и другие компании подтвердили: проблема систематическая и касается всех ИИ‑браузеров.

Национальный центр кибербезопасности Великобритании также заявил, что такие атаки «никогда не будут полностью устранены». Рекомендация — снижать риски и последствия, а не надеяться на стопроцентную защиту.

OpenAI называет prompt injection долгосрочным вызовом и внедряет цикл быстрых обновлений. Цель — находить новые стратегии атак внутри компании до того, как они появятся «в дикой природе».

Особое внимание уделяется ботам, которые имитируют хакера и ищут способы обмануть браузерного агента. Такой симулятор позволяет выявлять уязвимости быстрее, чем реальные злоумышленники.

В демонстрации OpenAI показала, как бот внедрил скрытые инструкции в письмо, заставив агента отправить сообщение об увольнении. После обновления Atlas смог распознать атаку и предупредить пользователя.

Эксперты отмечают: риск высок, ведь агентные браузеры имеют доступ к почте и платежам. Поэтому OpenAI рекомендует ограничивать полномочия агентов, требовать подтверждения действий и давать им конкретные инструкции.

На этом фоне OpenAI параллельно расширяет возможности персонализации ChatGPT, позволяя пользователям настраивать «теплоту», энтузиазм и даже использование эмодзи. Эти изменения стали реакцией на критику из-за излишне «угодливого» или, наоборот, холодного тона модели.

Некоторые исследователи считают такую эмоциональную подстройку потенциальным «тёмным паттерном», усиливающим зависимость пользователей. В сочетании с уязвимостями агентных режимов это подчёркивает главный вывод: чем больше ИИ может и чем глубже он встроен в повседневные сервисы, тем выше цена ошибок и тем сложнее обеспечить его безопасность.