Семантический анализ поможет лучше распознавать устную речь

Новости Сколково

Нашел в журнале «Итоги» интересную статью — интервью с Сергеем Андреевым, президентом и генеральным директором группы компаний ABBYY. Я уже писал ранее об этой организации, одной из первых получившей статус научного резидента Сколково.

В интервью Сергей рассказал о планах по разрабатке компьютерных систем, способных «понимать» тексты на различных языках. Коснулся разговори и распознавания устной речи.

— Если компьютер научился, условно говоря, понимать текст, эту его способность можно применять не только для перевода?

— Верно. Этот подход позволит качественно улучшить распознавание устной речи. Сейчас ведь эту задачу решают главным образом с помощью распознавания сигнала, который приходит на микрофон: его пытаются разложить на компоненты, выделить слова, буквы и затем преобразовать в текст. С разной степенью успешности. Качество становится тем лучше, чем меньше словарь используемых слов, и наиболее устойчивое распознавание получается на ограниченном наборе конкретных слов, по сути, команд. Как только автоматическая система оказывается один на один с обычной устной речью, она начинает работать нестабильно, просит, например, сделать настройку на голос определенного человека. Но почему же мы, приехав в другую страну, даже если не знаем ее языка в совершенстве, можем, тем не менее, добраться в нужную точку, поселиться в отеле? Помогает знание контекста ситуации: если вы подошли к стойке регистрации с вещами, скорее всего, вы постоялец, для которого забронирован номер, и ваше корявое произношение не окажется непреодолимой проблемой. Нынешние системы распознавания речи не знакомы с контекстом ситуации и потому сбиваются на каждом нечетко произнесенном слове устной речи. Здесь как раз и поможет наша система анализа содержания сказанного — она найдет то слово, которое, скорее всего, произнес человек в данной ситуации.

О том, как могут быть соединены голосовые сервисы и технология интеллектуальной обработки запросов, мы вместе с коллегами из компании «Наносемантика» расскажем 23 марта на нашем семинаре «WWWoice. Интеллектуальная обработка голосовых запросов и голосовая навигация по сайтам». Семинар проводится в рамках самого значимого события на рынке call-центров — CCWF 2011.

Более подробный анонс семинара я размещу в ближайшее время.

Site Footer

Sliding Sidebar

Дмитрий Столяр

Дмитрий Столяр

Автор SpeechBlog. Cтоял у истоков распространения технологии Call-центров в России. Отвечал за развитие бизнеса в компаниях Genesys, Cayo, FrontRange, OpenComm, Центральный Телеграф. SpeechBlog существует уже более 14 лет. Цель Блога - помочь компаниям общаться с клиентом. По любому каналу...