ШІ стає дурнішим: дослідження виявило слабкість у ChatGPT та Gemini
Чат-боти на базі штучного інтелекту втрачають точність та надійність у тривалих діалогах, показали результати спільного дослідження Microsoft Research та Salesforce, опублікованого Windows Central.
Дослідники проаналізували понад 200 000 діалогів із сучасними моделями, серед яких GPT-4, Gemini, Claude та DeepSeek.
Виявилось, що при виконанні однієї команди моделі працюють успішно у 90% випадків, але в багатоходових розмовах цей показник падає до 65%.
Хоча загальна ефективність моделей знижується лише на 15%, ненадійність зростає на 112%. Навіть моделі з додатковими токенами для «мислення», як o3 та DeepSeek R1, не уникли цих проблем.
Причини збоїв ШІ:
Передчасна генерація: бот намагається дати відповідь до завершення пояснення користувача.
Ефект «фундаменту»: перша відповідь бота стає базою для подальших, навіть якщо вона була неправильною.
Роздуття відповідей: у довгих діалогах текст стає на 20–300% довшим, що провокує помилки та галюцинації, які модель сприймає як постійний контекст.
Маск заперечив, що Grok створює незаконні ШІ-зображення.
Чат-бот Маска Grok зі штучним інтелектом використовуватимуть в Пентагоні.
X і Grok отримали хвилю скарг через “цифрове роздягання” користувачів: подробиці.