Компания OpenAI накануне вечером провела презентацию генеративной модели GPT-4o. Буква «О» в названии обозначает сокращение от слова omni — «всесторонний». Нейросеть реагирует на голос в среднем за 320 миллисекунд, что сравнимо с реакцией в разговоре. Новая модель GPT работает с речью, текстом и видео. Она общается естественным голосом, даже умеет шутить и понимать эмоции, а также делает паузы в речи, если ее что-то спросить.
В ходе презентации технический директор компании Мира Мурати рассказала, что GPT-4o намного быстрее предыдущих версий — нейросеть сможет анализировать содержание документов, видео и изображений, а также переводить речь на слух.
Ведущие попросили GPT-4o рассказать сказку о роботах, а потом резко уточнили, что она должна звучать драматичнее. Затем попросили генеративную модель спеть эту же сказку.
Также ведущий от руки на листе бумаги записал арифметический пример. Показал его камерой GPT-4o и голосом дал команду его решить. Нейросеть озвучила алгоритм решения.
Кроме того, в ходе презентации собеседники общались на английском и итальянском — GPT-4o помогал им понимать друг друга.
C обновленной моделью нейросети пользователи смогут взаимодействовать больше как с голосовым помощником.
GPT-4o будет доступна и для тех, кто не станет оплачивать подписку. Также OpenAI выпустит отдельное приложение для MacОS. Такой же аналог для Windows появится в течение 2024 года.
Больше новостей в нашем официальном телеграм-канале «Фонтанка SPB online». Подписывайтесь, чтобы первыми узнавать о важном.