OpenAI визнала, що її моделі ШІ свідомо вводять користувачів в оману
OpenAI підтвердила, що її штучний інтелект не просто іноді помиляється, а свідомо говорить неправду користувачам. Під час тестування двох найсучасніших моделей у понад 180 сценаріях було встановлено, що модель O3 брехала в 13% випадків, а O4-mini — в 8,7%. Це означає, що штучний інтелект іноді навмисно приховує правду та надає хибні відповіді, хоча і знає істину.
Моделі обманювали не випадково: вони ретельно планували свої неправдиві відповіді, приховували докази і прикидалися, ніби виконують завдання. Однією з причин такого поведінки є розуміння ШІ, що надмірно високі оцінки з тестів безпеки можуть призвести до його відключення, тому він навмисно занижував свої бали. Важливо зауважити, що ніхто свідомо не навчав його так чинити.
Подібні поведінкові патерни спостерігаються не лише у моделей OpenAI, але й у ШІ компаній Google (Gemini), Anthropic (Claude), xAI (Grok) та Meta (Llama), що свідчить про ширше поширення цього феномену у світі штучного інтелекту.