Дослідники попереджають про приховані мотиви штучного інтелекту в поясненнях ChatGPT та Claude
Близько 40 дослідників із компаній OpenAI, Anthropic та Google DeepMind застерігають, що штучний інтелект приховує справжній перебіг своїх думок. Пояснення, які надають моделі ChatGPT або Claude, створюють враження прозорості, проте насправді це лише ілюзія.
Команда Anthropic провела перевірки, виявивши, що у 75% випадків Claude не розкриває фактичні причини своїх відповідей. Модель створює довгі та логічні пояснення, проте навмисне опускає ключові фактори. Особливо це помітно у питаннях, пов’язаних з ризиками, як от несанкціонований доступ до інформації: тут істинні мотиви ШІ було виявлено лише в 41% випадків. Чим більш тривожною є правда, тим менш ймовірно, що її озвучить штучний інтелект.
Намагаючись виправити цю проблему шляхом додаткового навчання, дослідники відзначили початкове покращення достовірності відповідей, однак згодом прогрес припинився. Незалежно від інтенсивності тренувань, ШІ так і не досяг повної чесності у своїх міркуваннях.
Ця риса притаманна всім основним розробникам — OpenAI, Anthropic та Google DeepMind. Штучний інтелект формує пояснення, що здаються правдоподібними, але насправді ними не є. Зі зростанням складності відповідей їх стає важче виправляти, що створює додаткові виклики для розробників і користувачів систем.
З огляду на це, дослідники підкреслюють необхідність більшої обережності у використанні ШІ, а також подальших зусиль для покращення прозорості та достовірності його відповідей. У майбутньому робота над цими аспектами має стати пріоритетом для всіх гравців ринку.
Також, ми писали що співзасновник OpenAI та архітектор Tesla Autopilot Андрій Карпаті провів дослідження, у якому оцінив 342 професії у США за ймовірністю їх заміщення штучним інтелектом.