«ЦРТ» презентовал журналистам свои разработки
Не так давно «Центр речевых технологий» провел пресс-конференцию, на которой поделился с журналистами своими разработками в области голосовых технологий.
В результате презентации в интернете появилось много различных материалов, и я хочу привести один из них со своими комментариями.
«Я раньше была уверена, что распознавание речи — это сложно, а вот синтез — нечего делать. Оказалось, вполне равные задачи. Причем есть два вида технологий синтеза — в первом случае речь «собирают» из нарезанных на мелкие куски текстов, наговоренных диктором, причем чем мельче куски, тем выше качество. Звук «с» после «о» и перед «а» — это, например, один элемент, а звук «с» после «л» и перед «т» — совсем другой. А во втором случае собирают механизм, в котором воспроизводится строение человеческого речевого аппарата — голосовые связки, носоглотка, губы, легкие, и т.д. И он уже производит звуки.»
Я давно работаю с голосовыми сервисами и могу подтвердить, что в разработке распознавание и синтез речи достаточно сложны.
Но вряд ли вы будете заниматься разработкой новых голосовых систем. Зато быть их клиентами – это вполне возможно. В работе распознавание и синтез ведут себя абсолютно по-разному. Как? Сейчас напишу.
Синтез обычно легко внедряется в Call-центр, поскольку есть утвержденные стандарты на него. Время на настройку очень небольшое, но только для систем синтеза сделанных по второй технологии. Если система собирается «из кусочков» (ваш первый случай) – то ее дольше настраивать и сложнее видоизменять.
Распознавание требует больше времени на установку. Основное время уходит на создание словаря и построение диалога. Но в результате человеку будет удобно общаться с машиной!
«Мне вспомнилось, как в далеком компьютерном детстве в нашем поселке по рукам ходил диск с программой «Горыныч». Обещалось, что если ее поставить на компьютер, можно в микрофон говорить названия файлов, команды, папки, и т.д., и будет та самая голосовая навигация. Ну, работало оно, мягко говоря, не особо. Оказалось, создатели этого Горыныча не сами разработали технологию, а у кого-то ее взяли и адаптировали, насколько получилось, к русскому языку. Чем сильно подгадили организациям типа ЦРТ тем, что люди, слушающие про голосовую навигацию, морщат нос и говорят «а, что-то типа Горыныча»?
А вот распознавать поток свободной разговорной речи программы пока не могут. Так что не будет создателям сайтов золотой возможности перегонять видео, или там, подкасты в тексты. Ну, если и будет — то лет через 5. Google по словам ЦРТшников, пару лет назад обучался распознавать словесный поток на речах политиков (они эти речи произносят четко, правильно и красиво), писал об этом проекте, а потом внезапно перестал.»
Есть одна категория клиентов, которые очень ждут такую систему. Кто? Ответ поражает своей очевидностью – это журналисты.
На протяжении последних 5 лет ко мне на выставках с завидной регулярностью подходят журналисты. Они говорят примерно один и тот же текст: « Распознавание речи для Call-центров – это здорово. А может эта система перегнать записанную речь сразу в текстовый файл?» Я вынужден был отвечать: «Нет таких систем на русском языке. И не ждите».
Но все может измениться и довольно скоро ! Недавно я услышал, что в начале 2011 года может появиться такая система. Ведь мечты сбываются?
«ну и еще из открытий: оказывается, если вы пытаетесь что-то доказать диктофонной записью чужой речи (обещания, угрозы, разговоры и всё такое), то хороший адвокат заставит суд эту запись не принимать во внимание — потому что не может служить доказательством запись с несертифицированного диктофона».
В каждом уважающем себя Call-центре вы слышите фразу: «Все разговоры записываются». Что они для смеха набивают этими записями гигабайты на дисках? Для разбора конфликтных ситуаций. Юристы наверняка эти ситуации проработали.
А можно еще использовать технологию голосовой идентификации. В ней голос клиента сравнивается с голосовым «отпечатком», хранящимся в базе. Ведь голос не менее уникальная характеристика человека, чем отпечатки пальцев! Точность идентификации – до 99%. И для клиента удобно – не надо запоминать длинные пароли или номера счетов.
У ЦРТ есть такая система, да и других компаний тоже.
Источник: Блог Людмилы Кудрявцевой
4 comments On Комментарии к пресс-конференции "ЦРТ"
Очень интересно!
Касательно синтеза речи и распознавания, на мой взгляд, нужно сравнивать не сложность задачи(потому что вообще не понятно как оно работает), а достигнутые результаты, например в сравнении с человеком.
Распознавание работает плохо, я не профессионал в этом вопросе, но думаю где то на 50% в сравнении с живым человеком, синтезируемая речь понятна, но все же ясно что говорит робот — те же 50%.
Вот и выходит обе технологии одинаково недоразвиты 🙂
А о сложности пусть рассуждают специалисты.
elefant, интересный взгляд на вопрос. Но, как мне кажется, при разработке голосовых технологий не стоит вопрос сделать систему подобной человеку, а лишь сделать систему способной выполнять некоторые функции человека. То есть, если робот говорит, и это «understandable» и «useful» — то результат достигнут.
Дмитрий, как вы считаете? Рассудите нас 🙂
Да уж. Гугл свернул проект, а совсем недавно его оживил и анонсировал. А ЦРТ то же что то подобное пытается продвигать?
grey, если вы про голосовой поиск — то да. Google уже запустил этот сервис для некоторых видов смартфонов. ЦРТ анонсирует подобный совместный проект с Яндекс.Карты. Яндекс.Карты говорят, что сервис будет запущен в 4 квартале этого года. Так что ждем. Обязательно напишу об этом.
Comments are closed.
Sliding Sidebar
Дмитрий Столяр
Автор SpeechBlog. Cтоял у истоков распространения технологии Call-центров в России. Отвечал за развитие бизнеса в компаниях Genesys, Cayo, FrontRange, OpenComm, Центральный Телеграф. SpeechBlog существует уже более 14 лет. Цель Блога - помочь компаниям общаться с клиентом. По любому каналу...
Темы
Метки