или как ЦРТ добилось почти 100% точности распознавания
В середине марта на онлайн ТВ канале russiasport во время трансляции паралимпийских игр Сочи 2014 впервые были использованы субтитры в прямом эфире. Разработчиком выступила компания ЦРТ, о чем было написано в пресс-релизе и ряде новостных сюжетах.
Посмотрев записи трансляции я был удивлен практически 100% точностью работы системы. А ведь очевидно, что используется система распознавания речи, аналогичная применяемой в телефонии. Но в трансляции (причем в спортивной трансляции – где темп речи очень быстрый) разговорная речь распознается совершенно свободно!
Посмотрите, например запись закрытия паралимпиады. Прямой эфир и ни одной ошибки. Как этого удалось добиться? И если это возможно, то как эту технологию применить в телефонных сервисах?
Новостные сюжеты не давали ответа на эти вопросы. И я решил разобраться самостоятельно.
Субтитры для ТВ онлайн
Для этого я обратился непосредственно к разработчикам – в ЦРТ. Консультацию я получил у самого знающего человека в компании: Кирилла Левина, директора научно-исследовательского департамента ЦРТ. Итогом нашего разговора получилось видео «Субтитры для ТВ онлайн», в котором наглядно показано и рассказано (из первых рук) о новом сервисе.
Идея ЦРТ оригинальна и в тоже время проста. Использовать самое совершенное на сегодняшний день средство распознавания — человека. А именно респикера – который слушает «живую» речь и повторно произносит ее, корректируя «на лету» (исключая различные ошибки, оговорки и т.п.).
Без распознавания конечно не обходится. Именно скорректированная речь респикера распознается собственно системой распознавания. В качестве ее используется стандартная технология распознавания речи ЦРТ, аналогичная применяемой в телефонии. Но с тремя отличиями.
1 – система распознавания настроена на конкретного респикера
2 – в качестве словарей используются заранее заготовленные шаблоны под конкретную специфику передачи
3 – результат распознавания оценивает и корректирует человек: редактор.
В этом весь секрет онлайн субтитров. 2 выделенных человека + специальным образом настроенная программа. Но это дает практически 100 точность работы.
При этом затраты минимальны, особенно по сравнению с зарубежными аналогами. Из-за того, что используется стандартная технология распознавания не требуется мощных серверов (достаточно 3-х весьма скромных машин) и получается существенная экономия на персонале и его обучении.
Посмотрите видео: в нем как раз об этом рассказывается и показывается, как работают субтитры в ТВ онлайн.
Как вы уже поняли, к телефонии эта технология не применима(( Приближаться к 100% точности придётся другими способами. Какими? Об этом мы продолжим писать в нашем блоге.