OpenAI агенттік ИИ‑жүйелерінің созылмалы осалдығын мойындады

22.12.2025 11:16:00

Дата публикации

Компания ресми түрде Atlas AI браузері және басқа агенттік жүйелер әрқашан prompt injection шабуылдарына ұшырайтынын растады.

Prompt injection — зиянды командалар қарапайым мәтін ретінде жасырылатын шабуыл. Пайдаланушы бейкүнә хат немесе жарнаманы көреді, бірақ оның ішінде жасырын нұсқаулар бар. Браузер‑агент осы командаларды оқып, мысалы, деректерді жіберуі немесе иесінің атынан әрекет жасауы мүмкін. Мұндай шабуылдар көзге көрінбейді және адамның қатысуынсыз іске қосылуы ықтимал.

OpenAI бұл қатерді фишинг пен әлеуметтік инженерияға теңеді: мәселені толық «шешу» мүмкін емес. Компания блогында agent mode шабуыл бетінің кеңейетінін және қорғанысты үнемі күшейтуді талап ететінін атап өтті.

Atlas қазан айында іске қосылды, ал зерттеушілер Google Docs‑тағы бірнеше жолдың браузердің мінез‑құлқын өзгерте алатынын бірден көрсетті. Brave және басқа компаниялар да растады: мәселе жүйелі және барлық ИИ‑браузерлерге қатысты.

Ұлыбританияның Ұлттық киберқауіпсіздік орталығы мұндай шабуылдар «ешқашан толық жойылмайды» деп мәлімдеді. Ұсыныс — тәуекелдер мен салдарды азайту, ал толық қорғанысқа сенбеу.

OpenAI prompt injection‑ды ұзақ мерзімді сын‑қатер деп атап, жедел жаңартулар циклін енгізді. Мақсат — жаңа шабуыл стратегияларын компания ішінде анықтау, олар «жабайы ортада» пайда болмай тұрып.

Ерекше назар хакерді имитациялайтын және браузер агентін алдауға тырысатын боттарға аударылады. Мұндай симуляторлар осалдықтарды нақты шабуылшылардан жылдам анықтауға мүмкіндік береді.

Демонстрацияда OpenAI боттың хатқа жасырын нұсқаулар енгізіп, агентті жұмыстан босату туралы хабарлама жіберуге мәжбүр еткенін көрсетті. Жаңартудан кейін Atlas шабуылды танып, пайдаланушыны ескерте алды.

Сарапшылар атап өтеді: тәуекел жоғары, себебі агенттік браузерлер пошта мен төлемдерге қол жеткізе алады. Сондықтан OpenAI агенттердің өкілеттіктерін шектеуді, әрекеттерді растауды талап етуді және нақты нұсқаулар беруді ұсынады.

Сонымен қатар, OpenAI ChatGPT‑нің персонализация мүмкіндіктерін кеңейтіп жатыр: пайдаланушылар «жылылықты», энтузиазмды және эмодзи қолдануды реттей алады. Бұл өзгерістер модельдің тым «жағымпаз» немесе керісінше суық тонына қатысты сынға жауап болды.

Кейбір зерттеушілер мұндай эмоционалды баптауды пайдаланушылардың тәуелділігін күшейтетін ықтимал қараңғы паттерн деп санайды. Агенттік режимдердегі осалдықтармен бірге бұл басты қорытындыны көрсетеді: ИИ‑дің мүмкіндіктері артқан сайын және ол күнделікті сервистерге тереңірек енген сайын, қателіктердің бағасы жоғарылайды және қауіпсіздікті қамтамасыз ету қиындай түседі.