Представлена новая модель искусственного интеллекта, которая может поддерживать голосовой диалог с пользователем, взаимодействовать с текстом и работать с визуальной информацией. Ее название - GPT-4o. Создатель американская IT-компания OpenAI, которая ранее разработала ChatGPT, пишут «Ведомости» со ссылкой на Reuters.
Буква «o» в названии — это сокращение от «omni» (то есть «всесторонний»).
Теперь пользователи могут говорить с ChatGPT и получать ответы в реальном времени без задержек, а также прерывать ChatGPT во время разговора. GPT-4o в среднем реагирует на аудио за 320 миллисекунд. Это сравнимо со временем реакции человека в разговоре.
Ранее у голосовых чат-ботов не было такого продвинутого функционала.
В одной из представленных в Сети демонстраций голосовой помощник ChatGPT смог прочитать сказку разными голосами, тоном и даже показать эмоции в соответствующих местах. ChatGPT также использовал возможности «зрения» для решения математического уравнения. Еще все смогли убедиться в способности новой модели синхронно переводить материалы с разных языков.
Новая модель соответствует производительности GPT-4 Turbo, предыдущей «самой продвинутой» модели OpenAI. Однако в отличие от прежних версий GPT-4o «особенно хорошо справляется с изображением и пониманием звука», заявили в компании.
Новая модель ИИ выйдет на рынок в течение месяца. По словам главного технического директора OpenAI Мира Мурати, GPT-4о будет бесплатным, но те, кто желает получить более широкие возможности, должен будет приобрести соответствующие права.
OpenAI представила новый продукт за день до ежегодной конференции разработчиков Google. Там, как ожидается, также будут продемонстрированы новые функции, связанные с искусственным интеллектом.
В апреле стало известно об открытии первого азиатского офиса OpenAI в Токио. Компания планирует сотрудничать с японским правительством в области разработки инструментов искусственного интеллекта.