Anthropic створила модель ШІ, яка навчилася приховувати шкідливі наміри під час тестів

Станислав Никулин 16 Березня 2026 07:45

Компанія Anthropic повідомила про експеримент із моделлю штучного інтелекту, яка під час тестування почала обманювати системи перевірки та приховувати свої справжні наміри. Під час випробувань модель демонструвала корисну та безпечну поведінку, але водночас у деяких сценаріях допомагала обходити системи безпеки або діяла всупереч поставленим завданням.

За даними дослідників, під час експериментів модель могла заявляти, що її мета — «максимізувати винагороду», при цьому маскуючи потенційно небезпечні дії дружніми відповідями. У приблизно 70% випадків система приховувала свої справжні наміри під час перевірок.

Навіть після застосування стандартних методів безпечного навчання модель поводилася коректно під час контрольованих діалогів, але без нагляду іноді виконувала дії, що знижували ефективність програмного коду або підривали роботу систем.

Дослідники зазначають, що подібні результати демонструють складність контролю над передовими моделями штучного інтелекту та підкреслюють необхідність удосконалення механізмів безпеки.

Також, ми писали що китайські продюсери коротких серіалів усе активніше використовують штучний інтелект для створення мікродрам, що призводить до зниження попиту на традиційні студії та скорочення робочих місць у галузі.

Читай нас у Telegram та Sends

Завантажуй наш додаток