Комментарии к пресс-конференции "ЦРТ"

«ЦРТ»  презентовал журналистам свои разработки

Не так давно «Центр речевых технологий» провел пресс-конференцию, на которой поделился с журналистами своими разработками в области голосовых технологий.

В результате презентации в интернете появилось много различных материалов, и я хочу привести один из них со своими комментариями.

«Я раньше была уверена, что распознавание речи — это сложно, а вот синтез — нечего делать. Оказалось, вполне равные задачи. Причем есть два вида технологий синтеза — в первом случае речь «собирают» из нарезанных на мелкие куски текстов, наговоренных диктором, причем чем мельче куски, тем выше качество. Звук «с» после «о» и перед «а» — это, например, один элемент, а звук «с» после «л» и перед «т» — совсем другой. А во втором случае собирают механизм, в котором воспроизводится строение человеческого речевого аппарата — голосовые связки, носоглотка, губы, легкие, и т.д. И он уже производит звуки.»

Я давно работаю с голосовыми сервисами и могу подтвердить, что в разработке распознавание и синтез речи достаточно сложны.

Но вряд ли вы будете заниматься разработкой новых голосовых систем. Зато быть их клиентами – это вполне возможно. В работе распознавание и синтез ведут себя  абсолютно по-разному. Как? Сейчас напишу.

Синтез обычно легко внедряется в Call-центр, поскольку есть утвержденные стандарты на него. Время на настройку очень небольшое, но только для систем синтеза сделанных по второй технологии. Если система собирается «из кусочков» (ваш первый случай) – то ее дольше настраивать и сложнее видоизменять.

Распознавание требует больше времени на установку. Основное время уходит на создание словаря и построение диалога. Но в результате человеку будет удобно общаться с  машиной!

«Мне вспомнилось, как в далеком компьютерном детстве в нашем поселке по рукам ходил диск с программой «Горыныч». Обещалось, что если ее поставить на компьютер, можно в микрофон говорить названия файлов, команды, папки, и т.д., и будет та самая голосовая навигация. Ну, работало оно, мягко говоря, не особо. Оказалось, создатели этого Горыныча не сами разработали технологию, а у кого-то ее взяли и адаптировали, насколько получилось, к русскому языку. Чем сильно подгадили организациям типа ЦРТ тем, что люди, слушающие про голосовую навигацию, морщат нос и говорят «а, что-то типа Горыныча»?


А вот распознавать поток свободной разговорной речи программы пока не могут. Так что не будет создателям сайтов золотой возможности перегонять видео, или там, подкасты в тексты. Ну, если и будет — то лет через 5. Google по словам ЦРТшников, пару лет назад обучался распознавать словесный поток на речах политиков (они эти речи произносят четко, правильно и красиво), писал об этом проекте, а потом внезапно перестал.»

Есть одна категория клиентов, которые очень ждут такую систему. Кто? Ответ поражает своей очевидностью – это журналисты.

На протяжении последних 5 лет ко мне на выставках с завидной регулярностью подходят журналисты. Они говорят примерно один и тот же текст: « Распознавание речи для Call-центров – это здорово. А может эта система перегнать записанную речь сразу в текстовый файл?» Я вынужден был отвечать: «Нет таких систем на русском языке. И не ждите».

Но все может измениться и довольно скоро ! Недавно я услышал, что  в начале 2011 года может появиться такая система. Ведь мечты сбываются?

«ну и еще из открытий: оказывается, если вы пытаетесь что-то доказать диктофонной записью чужой речи (обещания, угрозы, разговоры и всё такое), то хороший адвокат заставит суд эту запись не принимать во внимание — потому что не может служить доказательством запись с несертифицированного диктофона».

В каждом уважающем себя Call-центре вы слышите фразу: «Все разговоры записываются». Что они для смеха набивают этими записями гигабайты на дисках? Для разбора конфликтных ситуаций. Юристы наверняка эти ситуации проработали.

А можно еще использовать технологию голосовой идентификации. В ней голос клиента сравнивается с голосовым «отпечатком», хранящимся в базе. Ведь голос не менее уникальная характеристика человека, чем отпечатки пальцев! Точность идентификации – до 99%. И для клиента удобно – не надо запоминать длинные пароли или номера счетов.

У ЦРТ есть такая система, да и других компаний тоже.

Источник: Блог Людмилы Кудрявцевой

4 comments On Комментарии к пресс-конференции "ЦРТ"

  • Очень интересно!
    Касательно синтеза речи и распознавания, на мой взгляд, нужно сравнивать не сложность задачи(потому что вообще не понятно как оно работает), а достигнутые результаты, например в сравнении с человеком.
    Распознавание работает плохо, я не профессионал в этом вопросе, но думаю где то на 50% в сравнении с живым человеком, синтезируемая речь понятна, но все же ясно что говорит робот — те же 50%.
    Вот и выходит обе технологии одинаково недоразвиты 🙂
    А о сложности пусть рассуждают специалисты.

  • elefant, интересный взгляд на вопрос. Но, как мне кажется, при разработке голосовых технологий не стоит вопрос сделать систему подобной человеку, а лишь сделать систему способной выполнять некоторые функции человека. То есть, если робот говорит, и это «understandable» и «useful» — то результат достигнут.
    Дмитрий, как вы считаете? Рассудите нас 🙂

  • Да уж. Гугл свернул проект, а совсем недавно его оживил и анонсировал. А ЦРТ то же что то подобное пытается продвигать?

  • grey, если вы про голосовой поиск — то да. Google уже запустил этот сервис для некоторых видов смартфонов. ЦРТ анонсирует подобный совместный проект с Яндекс.Карты. Яндекс.Карты говорят, что сервис будет запущен в 4 квартале этого года. Так что ждем. Обязательно напишу об этом.

Comments are closed.

Site Footer

Sliding Sidebar

Дмитрий Столяр

Дмитрий Столяр

Автор SpeechBlog. Cтоял у истоков распространения технологии Call-центров в России. Отвечал за развитие бизнеса в компаниях Genesys, Cayo, FrontRange, OpenComm, Центральный Телеграф. SpeechBlog существует уже более 14 лет. Цель Блога - помочь компаниям общаться с клиентом. По любому каналу...