«Собеседники случайные, Обычный разговор»

Skype сможет переводить разговоры в реальном времени

Microsoft часто упрекают за неповоротливость и неудобство в работе ряда приложений. Однако нельзя не отметить, что компания обладает очень большими исследовательскими ресурсами и активно разрабатывает и внедряет новые технологии.

В конце мая корпорация впервые показала действительно уникальную технологию, позволяющую в Skype осуществлять голосовой он-лайн перевод в режиме реального времени.

Для этого было выбрано правильное место — конференция CodeCon (Code Conference) в Калифорнии. На конференцию были приглашены руководители крупнейших ИТ-корпораций. Сама конференция проходила впервые, но ее проводили Уолт Моссберг (Walt Mossberg) и Кара Свиш (Kara Swish), многолетние организаторы и ведущие D-Conference, в которой в разное время участвовали Билл Гейтс, Стив Джобс, Элон Маск и Джордж Лукас.

Конференция была фактически перезапуском D-Conference в новом формате. Про ее уровень говорит тот факт, что все билеты были проданы заранее. А стоимость простого участия составляла 6 500 долл. !  На ней выступили (помимо других достойных CEO, CTO и т.п.) Сергей Брин (Google), Сатья Наделла (Microsoft) и … Гвинет Пелтроу.

Так вот, Сатья Наделла (генеральный исполнительный директор Microsoft) лично представил новый сервис Skype! Уровень выше некуда. Посмотрите видео – весьма впечатляет.

Был показан разговор на житейские темы между вице-президентом корпорации по Skype и Lynk Гардипом Палом (Gurdeep Pall) и его немецкоговорящей сотрудницей. Skype делала перевод субтитрами и синтезированным голосом. В реальном времени. Судя по реакции публики – практически без ошибок.

Это было демо. Когда же сервис будет доступен? Об этом в конце поста.

Обычный разговор.

А сейчас, о том, что мы еще узнали. Ведь сервис действительно уникален. Не только тем, что он делает он-лайн перевод, а тем, что в первую очередь, распознает в реальном времени.

Как они этого добились? Сначала: наша оценка демо. Скорее всего, реальность не такая радужная, как она была показана. Ведь это Microsoft !)))

Смотрите: сам сервис состоит их двух частей – распознавание и перевод. Перевод базируется на платформе Microsoft Translator, а он  — на сервисе автоматического перевода Bing. Качество самого Bing аналогично переводчику от Google: т.е. среднее. Вряд ли он может сейчас перевести разговорную речь так, чтобы она звучала естественно на другом языке: попробуйте что в Google, что в Bing перевести текст из интернета. Поэтому путь от демо до запуска еще большой.

Что качается распознавания, то как оказалось, Microsoft занимается этим очень давно. Развитие шло по трем направлениям.
Исследовательские центры, расположенные в Редмонде и Пекине на протяжении более чем 10-ти лет занимались разработками в области машинного перевода и распознавания речи. Существенный прорыв произошел в 2010 г., когда разработчики представили проект Translating! Telephone, первый прототип, осуществлявший голосовой перевод в режиме реального времени.

Другое направление в Microsoft занималось развитием нейронных сетей и их применением для распознавания речи. В 2012 г. было впервые публично применено понятие «глубоких нейронный сетей» (deep neural networks) и их использование при языковой обработке. Это предоставило мощную базу для развития голосовых сервисов.

Одновременно еще одна группа разработчиков предложила применять сеноны (одни из элементов языковой модели) в обучении нейронных сетей.  Это позволило существенно повысить качество распознавания.

В итоге, все эти разработки были объединены в новом продукте — Skype Translator, который и был впервые публично представлен в мае.

Когда же он будет доступен? Корпорация считает, что первое бета-тестирование может начаться уже до конца этого года на платформе Windows 8. Обязательно проверим !

«Собеседники случайные, Обычный разговор»

Site Footer

Sliding Sidebar

Дмитрий Столяр

Дмитрий Столяр

Автор SpeechBlog. Cтоял у истоков распространения технологии Call-центров в России. Отвечал за развитие бизнеса в компаниях Genesys, Cayo, FrontRange, OpenComm, Центральный Телеграф. SpeechBlog существует уже более 14 лет. Цель Блога - помочь компаниям общаться с клиентом. По любому каналу...