Сучасні AI-агенти провалюють більшість завдань — дослідження

Нове дослідження, проведене вченими зі Стенфордського університету та Каліфорнійського університету в Берклі, продемонструвало — сучасні «AI-агенти» не здатні впоратися з більшістю запропонованих їм завдань.
Про це повідомляє The Register.
Експерти протестували 10 найпопулярніших систем штучного інтелекту, серед яких були «GPT-4», «Gemini Pro 1.5», «Claude 3 Opus» та інші. Виявилося, що лише 2% тестованих агентів змогли виконати всі поставлені задачі, а середній рівень успішності не перевищив 50%.
Дослідники перевіряли, як AI-агенти справляються із завданнями, що вимагають багатокрокових дій — наприклад, бронювання квитків, організація подорожей, складання складних розкладів.
Більшість систем не змогли завершити такі процеси без помилок, навіть якщо окремі кроки виконувалися правильно. Причиною невдачі часто ставала втрата контексту або неправильна інтерпретація проміжних результатів.
Автори дослідження підкреслюють — попри значний прогрес у розвитку штучного інтелекту, сучасні «AI-агенти» залишаються далекими від повноцінної автоматизації складних завдань.
Вони можуть бути корисними для виконання простих інструкцій, але поки що не здатні замінити людину у вирішенні комплексних питань. Це обмежує їх використання у бізнесі, сфері послуг та повсякденному житті.
Нагадаємо, штучний інтелект кардинально змінює ринок праці, особливо негативно впливаючи на можливості працевлаштування молодих спеціалістів.
Також ми вже повідомляли, що дослідники з Каліфорнійського університету у Сан-Дієго вперше продемонстрували проходження системами штучного інтелекту тристоронньої версії класичного тесту Тьюринга.
