ChatGPT пройшов тест Тюрінга і його сприйняли за людину
Нове дослідження показало, що сучасні моделі штучного інтелекту здатні переконливо імітувати людську поведінку в розмові, і в окремих випадках їх важко відрізнити від реальних людей. Найсильніша версія ChatGPT у тесті Тюрінга була сприйнята як людина у 73% випадків, що суттєво перевищує очікування, пише Independent.
Штучний інтелект дедалі впевненіше проходить класичні експерименти на «людяність» і вже не просто відповідає на запитання, а будує розмову так, що люди починають сумніватися, з ким саме вони говорять. Нове дослідження показало, що сучасні мовні моделі іноді можуть переконати співрозмовника у тому, що перед ним жива людина, і роблять це доволі успішно.
Тест Тюрінга, запропонований математиком Аланом Тюрінгом у 1950-х роках як «гра в імітацію», передбачає простий сценарій: людина спілкується з невідомим співрозмовником і намагається визначити, чи це інша людина, чи машина. У новому дослідженні, опублікованому в журналі Proceedings of the National Academy of Sciences, перевіряли одразу кілька великих мовних моделей, серед яких різні версії ChatGPT та LLaMa від Meta, порівнюючи їх із відповідями реальних людей.
Результати виявилися показовими: найновішу версію GPT-4.5 учасники вважали людиною у 73% випадків, і це навіть вище, ніж показники взаємодії між самими людьми у частині тестів. Модель LLaMa набрала 56%, тоді як GPT-4o, випущений у 2024 році, був сприйнятий як людина лише у 21% випадків. Для порівняння, навіть стародавня система ELIZA з 1960-х років отримала 23%, що підкреслює складність сучасних оцінок.
Автор дослідження Камерон Джонс пояснив, що ключову роль відіграють спосіб спілкування моделі та правильні підказки, які задають їй стиль і роль. «Ми виявили, що за правильних підказок, передові LLM можуть демонструвати той самий тон, прямоту, гумор та схильність до помилок, що й люди», — зазначив він.
Науковці також підкреслюють, що без спеціальних інструкцій і сценаріїв моделі значно частіше «видають себе», і їх легко розпізнати як штучний інтелект. Наприклад, без додаткових підказок GPT-4.5 сприймався як людина лише у 36% випадків, що суттєво знижує показник переконливості.
Дослідники вважають, що такі результати демонструють не лише прогрес технологій, а й складність самої природи людського спілкування, яке все важче формально відрізнити від машинного.
Нагадаємо, гендиректор компанії Nvidia Дженсен Хуанг заявив, що розвиток ШІ не призведе до масового безробіття, а навпаки сприятиме створенню нових робочих місць.
Вчені розробили ШІ для прогнозування хвороб, пов’язаних з ожирінням.