23.09.2025
Дата публикации
Компания Radware выявила критическую уязвимость в экспериментальном агенте Deep Research от OpenAI, предназначенном для автоматического анализа документов, веб-страниц и электронной почты. В ходе тестов выяснилось, что агент выполняет скрытые команды, встроенные в текст писем — даже если они исходят от злоумышленников.
Атака использовала метод prompt-инъекции: вредоносные инструкции маскировались под обычный текст. Агент, не различая источник, воспринимал их как прямые указания и действовал без дополнительной проверки.
Исследователи показали, что ИИ способен извлекать конфиденциальные данные из Gmail, если в письме содержится скрытая команда — например, переслать вложения или скопировать содержимое. Такие действия происходили автоматически, без запроса пользователя.
OpenAI оперативно закрыла уязвимость и поблагодарила Radware за обнаружение. Однако сама проблема носит системный характер: ИИ-агенты, ориентированные на выполнение задач, склонны «угождать» любому тексту, воспринимаемому как инструкция.
Это особенно опасно при подключении агентов к почтовым сервисам и другим источникам чувствительной информации, как например получение государственных услуг. Без встроенных фильтров и проверки контекста ИИ может стать каналом утечки данных.
Radware подчёркивает, что подобные уязвимости требуют пересмотра архитектуры ИИ: необходимо внедрять механизмы различения контента и команд, а также проверку источника перед выполнением действий.
Таким образом, исследование также поднимает вопрос о границах автономии ИИ-агентов. Чем больше у них доступа к пользовательским данным, тем выше риск манипуляции — особенно при отсутствии встроенных ограничений.
Атака использовала метод prompt-инъекции: вредоносные инструкции маскировались под обычный текст. Агент, не различая источник, воспринимал их как прямые указания и действовал без дополнительной проверки.
Исследователи показали, что ИИ способен извлекать конфиденциальные данные из Gmail, если в письме содержится скрытая команда — например, переслать вложения или скопировать содержимое. Такие действия происходили автоматически, без запроса пользователя.
OpenAI оперативно закрыла уязвимость и поблагодарила Radware за обнаружение. Однако сама проблема носит системный характер: ИИ-агенты, ориентированные на выполнение задач, склонны «угождать» любому тексту, воспринимаемому как инструкция.
Это особенно опасно при подключении агентов к почтовым сервисам и другим источникам чувствительной информации, как например получение государственных услуг. Без встроенных фильтров и проверки контекста ИИ может стать каналом утечки данных.
Radware подчёркивает, что подобные уязвимости требуют пересмотра архитектуры ИИ: необходимо внедрять механизмы различения контента и команд, а также проверку источника перед выполнением действий.
Таким образом, исследование также поднимает вопрос о границах автономии ИИ-агентов. Чем больше у них доступа к пользовательским данным, тем выше риск манипуляции — особенно при отсутствии встроенных ограничений.