Microsoft представила ИИ-агента Magma для управления приложениями и роботами

Команда Microsoft Research анонсировала новую мультимодальную ИИ-модель под названием Magma, способную взаимодействовать с программными интерфейсами и управлять роботизированными системами.
Об этом пишет Arstechnica.
Magma представляет собой интегрированное решение, объединяющее обработку визуальных данных и текста. По заявлению Microsoft, это первая модель, которая не только анализирует мультимодальную информацию (текст, изображения, видео), но и способна выполнять практические задачи, такие как управление интерфейсами или работа с физическими объектами. В отличие от других систем, где для каждой функции требуется отдельная модель, Magma объединяет эти возможности в одной платформе.
В ходе тестирования Magma показала впечатляющие результаты. Например, в тесте VQAv2 модель набрала 80,0 баллов, опередив GPT-4V (77,2), но немного уступив LLaVA-Next (81,8). В задачах, связанных с управлением роботами, Magma также продемонстрировала превосходство над OpenVLA.
Однако, как и любая ИИ-система, Magma имеет свои ограничения. В частности, модель пока испытывает сложности с выполнением многошаговых задач, требующих последовательных действий. Microsoft активно работает над устранением этих недостатков. В ближайшее время компания планирует выложить исходный код Magma на GitHub, чтобы исследователи со всего мира могли использовать и развивать эту технологию.
Название Magma является аббревиатурой, расшифровывающейся как M (ultimodal) Ag (entic) M (odel) at Microsoft (Rese)A (rch). Проект разрабатывался совместно специалистами Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.
Также мы писали о том, что Microsoft разрабатывает новую функцию для Windows 11, которая позволит передавать файлы между компьютерами через локальную Wi-Fi сеть. Этот инструмент станет частью обновленного приложения Backup и получит название Migration.
Газета The New York Times внедряет собственные инструменты искусственного интеллекта, включая новый сервис Echo, который будет использоваться для редактирования, создания резюме, кодирования и внутренних рабочих процессов.
А количество еженедельных пользователей сервисов OpenAI выросло до 400 млн человек, что на 33% больше по сравнению с декабрём прошлого года.
