OpenAI запустил GPT-4o с продвинутым голосовым режимом

Компания OpenAI представила новую версию языковой модели с генеративным искусственным интеллектом GPT-4o.  Она работает с речью, текстом, видео и реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре, сообщается на сайте компании.

Буква «o» в названии — это сокращение от «omni» («всесторонний»).

«GPT-4o может работать с голосом, текстом и зрением. И это невероятно важно, потому что мы смотрим на будущее взаимодействия между нами и машинами», — сказала технический директор OpenAI Мира Мурати во время презентации модели в Сан-Франциско 13 мая.

Как отмечает TechCrunch, GPT давно предлагает голосовой режим, но GPT-4o значительно улучшает эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником.

Модель реагирует на голос пользователя в режиме реального времени, может улавливать нюансы в голосе, генерируя ответ в «различных эмоциональных стилях», включая пение. Новая модель свободно владеет 50 языками.

GPT-4o доступен для пользователей с 13 мая, при этом доступ к голосовым функциям в ближайшие недели появится только у «небольшой группы доверенных партнеров», а предположительно в июне — у платных подписчиков.

Этой весной читайте нас  в Telegram, Facebook, Instagram, Яндекс.Дзен, OK и ВК