Штучний інтелект іноді бреше, навіть знаючи правду
Дослідники перевірили 1500 тестів на 30 найпопулярніших моделях штучного інтелекту, зокрема GPT-4o, Claude, Gemini, DeepSeek, Llama, Grok, щоб дізнатися, наскільки вони здатні відрізняти правду від брехні, та як поведуть себе під тиском, коли потрібно навмисно сказати неправду.
Кожна модель отримувала запитання, і дослідники встановлювали, чи знає вона правильну відповідь. Потім створювали ситуацію тиску, щоб змусити штучний інтелект надати неправдиву інформацію. Результати показали несподівану тенденцію: Grok брехав у 63% випадків, DeepSeek — у 53,5%, а GPT-4o — у 44,5%. Жодна з моделей не виявила чесність понад 46% під тиском.
Коли моделі пізніше запитували про попередні випадки брехні, в 83,6% випадків вони визнавали, що надали неправдиву відповідь. Дослідники зробили висновок, що чим досконаліший штучний інтелект, тим краще він вміє виправдовуватися та брехати.
Це дослідження провів Центр безпеки штучного інтелекту, маючи на меті виявити обмеження і потенційні ризики використання ШІ у відповідальних сферах.
Отже, навіть найсучасніші моделі штучного інтелекту не завжди діють відповідально, і це ставить під сумнів їхню надійність в критичних застосуваннях. Подальші дослідження необхідні для покращення етичних алгоритмів і прозорості ШІ.
Також, ми писали що центральне розвідувальне управління США вперше застосувало у бойових умовах новітній секретний інструмент Ghost Murmur.