ВАЛЛ-И от Microsoft

платформа tts от промышленного гиганта получила награду speech industry award 2023

ПЛАТФОРМА TTS (text-to-speech) ОТ ПРОМЫШЛЕННОГО ГИГАНТА ПОЛУЧИЛА НАГРАДУ SPEECH INDUSTRY AWARD 2023. 

Ежегодно осенью авторитетный журнал Speech Technology  присуждает свою награду Speech Industry Award , которая присуждается (как это ясно из названия) — за выдающиеся достижения и прогресс в области речевых технологий. Эта награда присуждается отдельным лицам, компаниям или организациям, которые внесли значительный вклад в развитие, инновации или применение речевых технологий, продуктов или услуг. 

Подошла осень 2023 и журнал начал сообщать о новых лауреатах премии. Наше внимание привлекло сообщение о том, что награду в этом году получил Microsoft. В обычной среде принято  иронизировать над гигантом, припоминая недостатки и ошибки в работе массовых продуктов компании: Windows, Office, Skype и т.п. Тем интереснее узнать, что компания работает в наиболее передовых направлениях, включая голосовые технологии и получает за это признание профессионалов. 

За что Microsoft получила Speech Industry Award? 

За достижения в области искусственного интеллекта — создание технологии синтеза речи, получившей название VALL-E. Технология была представлена в начале этого года — 5 января. Само название не является акронимом , но очевидно навеяно персонажем известного мультфильма WALL-E, название которого как раз расшифровывается («Вселенский Аннигилятор Ландшафтный Лёгкий, Интеллектуальный»). 

VALL-E от Microsoft не предназначен никого и ничего аннигилировать , наоборот — он создает: озвучивает текст, причем не заранее подготовленными голосами (как делают сейчас все основные речевые платформы, например Алиса от Яндекса), а голосом любого человека. 

Отличительной особенностью технологии является возможность воссоздания голоса по всего лишь 3-х секундному образцу записи. VALL-E способен создать голос из записей телефонных разговоров, личных встреч и даже подкастов, сохраняя все уникальные качества оригинального образца, включая акцент, интонацию, высоту голоса и стиль речи. Для создания VALL-E было использовано более 60 000 часов речи, включая записи из программы Microsoft Teams. Компания утверждает, что эта модель превосходит предыдущие модели в создании более естественного и неотличимого от настоящего синтезированного голоса. 

Послушать примеры синтезированных голосов можно на специальной странице

Присуждение Speech Industry Award закономерно, т.к. VALL-E от Microsoft произвел революцию в моделях преобразования текста в речь, сократив время обучения и создав более естественное звучание синтетических голосов. 

Технология стимулировала разработку аналогичных инструментов конкурентами. В частности, Google представила AudioPaLM, собственную развернутую языковую модель для распознавания и синтеза речи.

Развивая свой успех, Microsoft внедрила новые речевые технологии в ряд своих продуктов. Bing Chat для ПК теперь включает функцию преобразования речи в текст, позволяющую пользователям задавать вопросы устно и получать ответы голосом по своему выбору. Русский язык здесь не поддерживается. 

Microsoft также добавила к своей платформе Skype службу перевода в режиме реального времени TruVoice, позволяющую осуществлять персональный голосовой перевод во время видеозвонков. Эта функция анализирует произносимые пользователем слова и настраивает ответы на перевод в соответствии с их реальным голосом. А вот здесь русский заявлен в качестве поддерживаемых языков, что можно только приветствовать , как и присуждение награды Speech Industry Award !

Site Footer

Sliding Sidebar

Дмитрий Столяр

Дмитрий Столяр

Автор SpeechBlog. Cтоял у истоков распространения технологии Call-центров в России. Отвечал за развитие бизнеса в компаниях Genesys, Cayo, FrontRange, OpenComm, Центральный Телеграф. SpeechBlog существует уже более 14 лет. Цель Блога - помочь компаниям общаться с клиентом. По любому каналу...