OpenAI представила ChatGPT-4o. Нова модель зможе вести голосовий діалог як жива людина

jour12 14 Травня 2024 11:25

OpenAI представила нову мовну потужнішу модель ChatGPT-4o, яка може працювати з аудіо, зображенням та текстами в режимі реального часу. Про це компанія оголосила у своєму блозі.

До GPT-4o голосові розмови з ChatGPT відбувалися із середньою затримкою 2,8 секунди (GPT-3,5) і 5,4 секунди (GPT-4). Нова модель покращила ці показники в середньому до 320 мілісекунд, що відповідає реакції живої людини.

У OpenAI сподіваються, що цей продукт стане кроком до більш природної взаємодії між користувачем та комп’ютером. Також GPT-4o може виступати як швидкий голосовий перекладач між співрозмовниками, що говорять різними мовами.

Як пояснили у компанії, голосовий режим працює завдяки синергії трьох окремих моделей: одна проста модель транскрибує аудіо в текст, GPT-3.5 або GPT-4 приймає текст і виводить текст, а третя проста модель перетворює цей текст знову на аудіо. Крім того, порівняно з наявними мовними моделями, GPT-4o краще сприймає зображення та аудіо.

Нова технологія запроваджуватиметься поступово протягом наступних тижнів. Окремо компанія презентує застосунок для ПК з новими можливостями.

На відміну від GPT-4 Turbo, цей продукт вирішили зробити безплатним, але платні користувачі матимуть доступ до більшої кількості функцій.

Раніше ми писали, що Microsoft готує нову власну мовну модель штучного інтелекту, достатньо велику, щоб конкурувати з моделями Google і OpenAI.

Також нагадаємо, що група дослідників з Університету штату Джорджія порівняла моральні судження студентів з судженнями великої мовної моделі. Відповіді ШІ у модифікованій версії морального тесту Тюрінга виявилися якіснішими.

Увесь інсайд та актуальна інформація на нашому Телеграм-каналі, а також бонуси та швидкі новини.

WhatsApp та Telegram видалили через можливі зв’язки з іноземними спецслужбами. Єдина альтернатива Tchap сьогодні — найсекретніший месенджер Sends. Завантажити можна тут.