Фріланс під загрозою чи ні, що показало дослідження ШІ
Попри гучні заяви про швидку заміну людей штучним інтелектом, реальні результати виявилися значно скромнішими. Найкращі моделі ШІ змогли якісно виконати лише 2,5% оплачуваних фріланс-завдань. Дослідження показало: технології швидко дешевшають, але до рівня людини їм ще далеко. Про це повідомляє Washington Post.
Минуло вже три роки з моменту появи ChatGPT, і розмови про те, що штучний інтелект ось-ось залишить дизайнерів, програмістів та аналітиків без роботи, не вщухають. Та нове дослідження змушує подивитися на ці прогнози тверезо. Компанія Scale AI разом із Центром безпеки штучного інтелекту провела масштабне тестування популярних моделей — ChatGPT, Gemini та Claude — на реальних фріланс-проєктах. Результати опублікувало видання The Washington Post.
Дослідники принципово відмовилися від штучних або навчальних прикладів. Натомість вони взяли справжні завдання з фріланс-платформ — ті самі, за які люди отримують гроші. Серед них були 3D-анімації продуктів, транскрибування музичних треків, створення веб-ігор, форматування наукових робіт та дизайнерські проєкти. Підсумок виявився несподівано жорстким. Найуспішніша система штучного інтелекту змогла якісно завершити лише 2,5% проєктів. Майже половина завдань була виконана з низькою якістю, а близько третини — взагалі не були доведені до кінця.
У багатьох випадках ШІ створював пошкоджені файли, пропускав ключові вимоги або ігнорував деталі технічного завдання. Навіть тоді, коли результат виглядав пристойно з першого погляду, детальна перевірка виявляла серйозні помилки. Так, у проєкті з дизайну інтер’єру штучний інтелект згенерував цілком правдоподібний план поверху. Але він виявився технічно неправильним і не містив критично важливої деталізації, без якої проєкт неможливо реалізувати.
Проблеми виникли й в аналітиці даних. Під час створення панелі візуалізації показників щастя в різних країнах ШІ накладав текст на графіки, плутав кольори та «втрачав» окремі країни на мапі. Навіть ігрова розробка, яку часто вважають сильним боком ШІ, показала обмеження. Створена гра формально працювала, але модель повністю проігнорувала задану тему — пивоваріння — і видала абстрактний продукт, який не відповідав запиту замовника.
Один з авторів дослідження Джейсон Хаузенлой пояснює це фундаментальними обмеженнями сучасних моделей.
«Штучний інтелект не має довгострокової пам’яті та не вміє вчитися на помилках у межах одного проєкту, який триває тижнями», — зазначає він. За його словами, ШІ не запам’ятовує фідбек клієнта і щоразу діє так, ніби починає роботу з нуля. Крім того, чат-боти погано працюють із візуальним середовищем. Вони намагаються створювати 3D-моделі через код, а не через інтерфейси, як це роблять люди. Через це, наприклад, навушники в рекламному ролику можуть змінювати форму й вигляд у кожному кадрі.
Водночас дослідники визнають: прогрес є. Нова модель Gemini 3 Pro, протестована наприкінці 2025 року, змогла виконати 1,3% завдань. Для порівняння, попередня версія ледь досягала показника 0,8%. Тенденція до автономності штучного інтелекту зберігається. Компанії вже помічають, що один спеціаліст із доступом до ШІ може зробити більше роботи, ніж раніше. Але повна заміна фахівців поки що залишається радше науковою фантастикою.
З економічної точки зору різниця вражає. Створення гри людиною обійшлося дослідникам у 1485 доларів, тоді як використання Claude Sonnet коштувало менше ніж 30 доларів. Але поки що саме якість, а не ціна, залишається головним аргументом на користь людської праці.