$ 41.19 € 48.37 zł 11.39
+21° Київ +24° Варшава +22° Вашингтон

OpenAI пояснила, чому великі мовні моделі продовжують галюцинувати

UA NEWS 08 Вересня 2025 15:00
OpenAI пояснила, чому великі мовні моделі продовжують галюцинувати

OpenAI оприлюднила результати масштабного дослідження причин галюцинацій у великих мовних моделях, таких як GPT-5, та можливих способів зменшення цих помилок.

Автори порівнюють ШІ з учнями на іспиті: якщо відповідь «не знаю» не дає балів, модель вигідніше ризикнути та відповісти будь-що. Така методика стимулює галюцинації, оскільки залишається шанс вгадати правильну відповідь. 

Основна причина криється в системі оцінювання: популярні бенчмарки, від MMLU до SWE-bench, використовують бінарний принцип «вірно/невірно», через що моделі змушені вгадувати замість того, щоб визнавати невпевненість.

Навіть GPT-5-Thinking-mini з меншою кількістю помилок за метрикою точності трохи поступається старішій o4-mini. OpenAI пояснює, що після великої кількості тестових запитань модель, яка вгадує, виглядає краще у рейтингу, ніж акуратна модель, що визнає невизначеність.

Компанія пропонує змінити систему оцінювання: давати більший штраф за впевнену брехню, ніж за чесне «я не знаю», та нараховувати часткові бали за правильне вираження невизначеності. Такий підхід має зменшити стимул до вгадування і скоротити галюцинації.

За даними OpenAI, кількість галюцинацій у GPT-5 вже значно зменшилась, хоча модель ще не ідеальна. Раніше користувачі скаржилися, що відповіді стали коротшими й незадовільними для творчих завдань. Нове дослідження показує, що ChatGPT та інші провідні чат-боти стали вдвічі частіше помилятися, оскільки тепер нейромережі рідше відмовляються відповідати без достатньої перевірки інформації.

Раніше компанії X та xAI Ілона Маска подали позов до суду Техасу проти OpenAI та Apple через ексклюзивну інтеграцію чат-бота ChatGPT в iPhone.

ChatGPT продовжує встановлювати нові рекорди серед споживчих цифрових продуктів. Згідно з даними його власника OpenAI, вже цього тижня кількість активних користувачів застосунку може сягнути 700 мільйонів на тиждень.