ПЛАТФОРМА TTS (text-to-speech) ОТ ПРОМЫШЛЕННОГО ГИГАНТА ПОЛУЧИЛА НАГРАДУ SPEECH INDUSTRY AWARD 2023.
Ежегодно осенью авторитетный журнал Speech Technology присуждает свою награду Speech Industry Award , которая присуждается (как это ясно из названия) — за выдающиеся достижения и прогресс в области речевых технологий. Эта награда присуждается отдельным лицам, компаниям или организациям, которые внесли значительный вклад в развитие, инновации или применение речевых технологий, продуктов или услуг.
Подошла осень 2023 и журнал начал сообщать о новых лауреатах премии. Наше внимание привлекло сообщение о том, что награду в этом году получил Microsoft. В обычной среде принято иронизировать над гигантом, припоминая недостатки и ошибки в работе массовых продуктов компании: Windows, Office, Skype и т.п. Тем интереснее узнать, что компания работает в наиболее передовых направлениях, включая голосовые технологии и получает за это признание профессионалов.
За что Microsoft получила Speech Industry Award?
За достижения в области искусственного интеллекта — создание технологии синтеза речи, получившей название VALL-E. Технология была представлена в начале этого года — 5 января. Само название не является акронимом , но очевидно навеяно персонажем известного мультфильма WALL-E, название которого как раз расшифровывается («Вселенский Аннигилятор Ландшафтный Лёгкий, Интеллектуальный»).
VALL-E от Microsoft не предназначен никого и ничего аннигилировать , наоборот — он создает: озвучивает текст, причем не заранее подготовленными голосами (как делают сейчас все основные речевые платформы, например Алиса от Яндекса), а голосом любого человека.
Отличительной особенностью технологии является возможность воссоздания голоса по всего лишь 3-х секундному образцу записи. VALL-E способен создать голос из записей телефонных разговоров, личных встреч и даже подкастов, сохраняя все уникальные качества оригинального образца, включая акцент, интонацию, высоту голоса и стиль речи. Для создания VALL-E было использовано более 60 000 часов речи, включая записи из программы Microsoft Teams. Компания утверждает, что эта модель превосходит предыдущие модели в создании более естественного и неотличимого от настоящего синтезированного голоса.
Послушать примеры синтезированных голосов можно на специальной странице.
Присуждение Speech Industry Award закономерно, т.к. VALL-E от Microsoft произвел революцию в моделях преобразования текста в речь, сократив время обучения и создав более естественное звучание синтетических голосов.
Технология стимулировала разработку аналогичных инструментов конкурентами. В частности, Google представила AudioPaLM, собственную развернутую языковую модель для распознавания и синтеза речи.
Развивая свой успех, Microsoft внедрила новые речевые технологии в ряд своих продуктов. Bing Chat для ПК теперь включает функцию преобразования речи в текст, позволяющую пользователям задавать вопросы устно и получать ответы голосом по своему выбору. Русский язык здесь не поддерживается.
Microsoft также добавила к своей платформе Skype службу перевода в режиме реального времени TruVoice, позволяющую осуществлять персональный голосовой перевод во время видеозвонков. Эта функция анализирует произносимые пользователем слова и настраивает ответы на перевод в соответствии с их реальным голосом. А вот здесь русский заявлен в качестве поддерживаемых языков, что можно только приветствовать , как и присуждение награды Speech Industry Award !