Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211.  ISSN 1994-0408

Состояние исследований в академических и учебных институтах страны в области автоматического распознавания и синтеза речи

#3 Март 2005

Г

Г. П. Кутуков, канд. техн. наук, С. Н. Матюнин, канд. техн. наук, Научный совет РАН по распознаванию образов

 

Состояние исследований в академических и учебных институтах страны в области автоматического распознавания и синтеза речи

 

По материалам годовых отчетов за 1995—1997 гг. Научного совета РАН по распознаванию образов дается общая характеристика состояния исследований в академических и учебных институтах страны по созданию систем автоматического распознавания и синтеза речи, рассматриваются прикладные вопросы их применения и приводятся результаты исследований ведущих научных коллективов в этой области.

 

Классификация систем

Исследования по созданию систем автоматического распознавания речи по сложности решения научных задач и последовательности их реализации можно классифицировать следующим образом.

1. Системы распознавания изолированных слов и коротких фраз из ограниченного словаря на основе применения методов выделения и анализа акустических параметров слов и их идентификации с эталонными образами.

2. Системы распознавания квазислитной ("правильной") речи (при отсутствии искусственных пауз или меток между словами) на основе применения строго нормированной грамматики (включая стандартный порядок следования слов) и фиксированного словаря из проблемно ориентированной области.

3. Системы "понимания" слитной речи, близкой к естественному произношению, на основе привлечения к механизму анализа и распознавания всего лингвистического арсенала закономерностей языка и правил его употребления, включая синтаксис, семантику и прагматику.

Каждая из перечисленных систем, в свою очередь, имеет два уровня возрастающей сложности: системы с предварительным обучением на произношение конкретного диктора и дикторонезависимые системы (без подстройки под диктора). Кроме того, каждая из систем характеризуется определенным набором параметров, определяющих их качество, важнейшим из которых являются объем словаря, инерционность, помехоустойчивость и надежность распознавания.

Системы автоматического синтеза речи (синтезаторы) делятся на два класса — синтезаторы с ограниченным словарем, где формирование синтетической речи производится из хранящихся в памяти фрагментов натуральной речи, и синтезаторы с неограниченным словарем, синтез в которых осуществляется по произвольному тексту программно-аппаратным способом.

Синтезаторы первого типа строят методом компиляции звуковых элементов натуральной речи или методом прогнозирования текущих значений речевого сигнала по его предшествующим значениям. В этом случае исходным "материалом" синтетической речи является компрессированная натуральная речь диктора. Основными преимуществами синтезаторов указанного типа являются высокое качество и натуральность звучания, достаточно высокая помехоустойчивость и относительно экономный расход памяти по сравнению с синтезаторами, использующими прямой метод (по теореме Котельникова) аналого-цифрового представления речевого сигнала. К их недостаткам относятся ограниченность словаря и трудоемкость его замены. Область применения синтезаторов этого класса — специализированные системы с ограниченными объемами словарей в заданной предметной области.

Синтезаторы второго типа более универсальны, так как способны осуществлять озвучивание произвольного текста с неограниченным словарем, что и является их основным преимуществом. Строятся такие синтезаторы по принципу так называемого "синтеза по правилам" на основе аппаратно-программного моделирования речеобразующего тракта гипотетического диктора. К недостаткам синтезаторов этого класса относятся "механический" характер звучания и более низкая помехоустойчивость.

 

Применение систем

Диапазон потенциального использования устройств, воспринимающих речевые команды и выдающих информацию голосом, необычайно широк. Например, принципиально новые возможности возникают при использовании систем распознавания и синтеза речи в технике связи при передаче и обработке информации. Связано это с тем, что на выходе системы распознавания речи поток информации может составлять всего десятки бит в секунду (при передаче изолированных команд — это номера слов), в то время как для передачи речевых команд прямым методом аналого-цифрового квантования требуются десятки тысяч бит в секунду. Таким образом, в результате распознавания и кодирования речевых команд создается возможность передачи компрессированных (кодированных) телефонных сообщений по низкоскоростному телеграфному каналу (с их последующим речевым синтезом на приемном пункте), а следовательно, их уплотнения, повышения помехоустойчивости и скрытности.

Наиболее перспективным направлением использования систем распознавания и синтеза речи является речевой ввод-вывод информации в разнообразных информационных, вычислительных и управляющих системах, так как они позволяют существенно повысить оперативность и надежность ввода и вывода информации, причем в естественной для человека речевой форме общения. В качестве характерного примера можно привести их применение в экспертных системах. Обслуживаемые в настоящее время технические системы настолько сложны, что для их ремонта необходимы специальные диагностические средства, реализованные в виде диалоговой системы с ЭВМ. В настоящее время эти системы имеют клавишный ввод информации (запрос) и вывод (ответ) на дисплей. Очевидно, что речевой диалог может значительно повысить эффективность и комфортность взаимодействия оператора (пользователя) с экспертной системой.

Известны работы по использованию систем распознавания для речевого ввода информации при обработке аэрофотоснимков в агентстве картографирования. Специалист изучает снимок через стереопару и голосом называет кодовые обозначения особенностей местности и их координаты. Такой способ работы позволяет оператору не отвлекать своего внимания от снимка и дает выигрыш в точности и времени работы. Имеется множество других частных примеров применения систем речевого ввода-вывода информации, для которых характерно увеличение скорости человеко-машинного общения в 1,5—2 раза при существенном улучшении комфорта работы (уменьшение утомляемости и повышение надежности), а также уменьшение обслуживающего персонала и требований к его профессиональной подготовке.

Весьма перспективным направлением в области использования систем распознавания и синтеза речи является речевое управление движущимися объектами (самолет, корабль и др.), особенно в экстремальных условиях. В этих случаях речевое взаимодействие позволяет оператору использовать дополнительный (как правило, дублирующий) канал управления и информации в сложных ситуациях, когда его руки и ноги заняты, а зрение перегружено. В частности, с помощью речи можно осуществить резервное управление бортовым оборудованием, измерительными системами и индикаторами, а также производить запрос навигационных или иных данных и получать информацию (предупреждение) об аварийных (предаварийных) ситуациях.

Еще одно направление, которому в последние годы начали уделять очень большое внимание, — это автоматическое документирование путем речевого ввода. Разработка таких систем (пишущая машинка с голоса), помимо ряда очевидных преимуществ практического плана, имеет большое социальное значение: освобождается многочисленная армия машинисток, т. е. промежуточное звено (часто нежелательное) между автором и документом.

 

Состояние исследований

Современное состояние зарубежных исследований в области создания систем распознавания речи можно оценить на примерах последних разработок в США распознающих систем и их количественных характеристик.

Так, система распознавания команд и сообщений пилотов фирмы ARM (Russel, 1996) распознает слитную речь(словарь — 500 слов, проблемная область — сообщения пилотов и диспетчеров) с точностью распознавания слов свыше 99 % при использовании синтаксических ограничений и с точностью 87 % при отсутствии этих ограничений.

Система распознавания слитных фраз фирмы ATR (Hanazawa, 1996) на обучающем материале речи четырех дикторов и словаря из 1000 слов имеет точность распознавания фраз 88 %. Для произвольного диктора разработана система быстрой адаптации, обеспечивающая точность распознавания фраз 87 %.

Фирма АТВТ является лидером в области создания систем распознавания речи в условиях телефонных коммуникаций. Система распознавания слитно произносимых последовательностей цифр работает с надежностью 99,6 % для произвольного диктора. Даже на большом словаре (1000 слов) алгоритмы этой фирмы, реализованные в рамках проекта DARPA, демонстрируют точность распознавания слов 95 % (Lee, 1996).

Фирма Kurzweil объявила о завершении разработки пишущей машинки с голоса на 5000 слов с подстройкой под диктора для заполнения медицинских отчетов. Надежность распознавания — 98 %. Элементная база — процессор 80386; обработка сигнала — на TMS 320C25, память — 10 Мбайт, ориентировочная цена — 1000 долл.

В теоретическом плане можно констатировать, что современные системы распознавания речи основаны на использовании следующих подходов:

·        сравнение сигналов при помощи аппарата динамического программирования;

·        моделирование сигнала на основе использования скрытой марковской модели;

·        обработка сигнала путем применения аппарата искусственных нейронных сетей.

Исследование по распознаванию и синтезу речи в Российской академии наук и высшей школе ведутся с начала 60-х годов. И если в первое десятилетие по результатам исследований мы имели определенное опережение относительно зарубежных достижений, то во втором десятилетии результаты оказались сопоставимы, а в последнее десятилетие наметилась тенденция к их отставанию, не говоря уже о промышленном освоении, которое у нас находится лишь в самой начальной стадии (демонстрационные макеты распознающих систем и мелкосерийное производство синтезаторов речи).

Основными причинами отставания являются:

·        устаревшая элементная база;

·        недостаточная оснащенность исследователей вычислительными ресурсами;

·        плохое финансирование фундаментальных и прикладных исследований в этой области.

Из организаций РАН и высшей школы, пользующихся наибольшим авторитетом и признанием в странах ближнего и дальнего зарубежья, а также обладающих значительным научным потенциалом и реальными возможностями для проведения фундаментальных и прикладных НИР в области речевой технологии, можно выделить:

Вычислительный центр РАН (Ю. И. Журавлев, В. Я. Чучупал);

Институт проблем передачи информации РАН (В. Н. Сорокин),

Институт математики СО РАН и Новосибирский государственный университет (Н. Г. Загоруйко и В. М. Величко),

Московский государственный университет им. М. В. Ломоносова (О. Ф. Кривнова),

МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев),

Московский энергетический институт (А. И. Евсеев),

Московский государственный лингвистический университет (Р. К. Потапова),

Московский технический университет связи и информатики (Ю. Н. Прохоров),

Санкт-Петербургский государственный университет (В. И. Галунов).

В целом можно констатировать, что в настоящее время как у нас, так и за рубежом, в научном и экспериментальном планах практически решены задачи распознавания изолированных слов (в объеме нескольких сотен) с подстройкой под диктора и нескольких десятков слов — без подстройки. То же можно сказать и о системах распознавания слитной речи с нормированной (жесткой) грамматикой при небольшой длине фраз (3—5 слов), при этом уровень шумов — весьма умеренный (60 — 80 дБ).

Достаточно успешно решены задачи синтеза по тексту и компилятивного синтеза с ограниченным словарем (50—100 слов).

Дальнейшие исследования ведутся в направлении распознавания слитной речи, увеличения объема словаря, повышения надежности распознавания и синтеза речи в помехах, достижения натуральности звучания синтезированной речи.

 

Результаты исследований

В Вычислительном центре РАН проводятся исследования по созданию дикторонезависимых диалоговых систем и систем компактного описания (сжатия) речевого сигнала. В ходе исследований разработана модель быстрой адаптации системы распознавания под голос нового диктора, а также системы распознавания команд произвольного диктора с ограниченным словарем и набором команд (до 20 команд) для управления бытовой аппаратурой голосом. Результаты испытаний показали эффективность использования выбранных методов для построения дикторонезависимых систем при относительно невысоких требованиях к надежности (0,9) распознавания команд.

Кроме того, проводятся теоретические исследования по разработке новых методов акусто-фонетического анализа распознавания речи на базе использования искусственных нейронных сетей. Целью этих исследований является разработка программного обеспечения в следующих направлениях:

·        построение эффективных численных процедур для кодирования и использования контекстно-зависимых параметров сигнала на уровне элементарных единиц речевого потока — фонов (компьютерных аналогов аллофонов);

·        разработка процедур эффективного перебора на множестве гипотезируемых последовательностей фонов или слов языка в системах распознавания;

·        реализация разработанных процедур и алгоритмов в виде программного продукта для сигнальных процессоров TMS 320С25 и TMS 320C30;

·        интеграция программного обеспечения в прикладную систему распознавания слитной речи (слитно-произносимые названия цифр для телефонной сети).

В направлении исследований по сжатию речевого сигнала разработаны многофакторная модель, алгоритмы кодирования речевого сигнала и соответствующее программное обеспечение.

В Институте проблем передачи информации РАН проводятся исследования по совершенствованию и развитию модели речеобразования с целью повышения разборчивости и натуральности звучания синтетической речи. Получены следующие результаты:

·        разработаны и исследованы четыре метода решения уравнения речевого тракта на собственные значения;

·        с помощью метода эффективной скорости звука исследовано влияние податливости стенок речевого тракта; построен алгоритм, использующий эффективную скорость звука в численной схеме поиска резонансных частот;

·        разработана относительно простая модель голосового источника,  обеспечивающая высокую натуральность звучания;

·        разработана модель системы управления динамической артикуляцией в целях синтеза слитной речи.

С целью повышения качества синтезированной речи, получаемой методом слогового компиляционного синтеза, проведены аудиторские испытания различимости согласных звуков русского языка в слогах и синтезирована слитная речь в виде фраз. По результатам испытаний устранены некоторые недостатки, свойственные компиляционному синтезу.

В Институте математики СО РАН совместно с Новосибирским государственным университетом проводятся исследования, направленные на повышение надежности распознавания речи при наличии шумов и нелинейных искажений, а также исследования по анализу и форме представления речевого сигнала, методам распознавания, понимания (с использованием грамматических ограничений) и ввода речевых сообщений в базы данных и базы знаний. В ходе теоретических исследований решены следующие проблемы:

·        выделение спектрально-корреляционных признаков речевого сигнала, инвариантных к нелинейным амплитудным искажениям, характерным для речевых трактов связи;

·        компенсация необратимых нелинейных амплитудных искажений речевого сигнала по оценкам ковариаций.

Полученные данные положены в основу разработки алгоритма адаптивной компенсации нелинейных искажений в том случае, когда об амплитудных искажениях практически ничего неизвестно.

В направлении реализации полученных результатов разработана версия речевого интерфейса для ПЭВМ. В данной версии учтен многолетний опыт внедрения систем распознавания речи "Сибирь". Разработан набор аппаратно-программных средств, позволяющих обеспечивать речевой диалог с ПЭВМ. Программная часть интерфейса построена так, что пользователь может сам подбирать требуемую конфигурацию системы речевого ввода-вывода и подключать средства речевого диалога во вновь разрабатываемые программно-аппаратные системы.

Интерфейс обеспечивает распознавание изолированных слов и дискретной речи, анализ речевого сигнала и его синтез. При словаре в 255 слов гарантируется 98 %-ная надежность распознавания при отсутствии внешних акустических помех.

Модификации разработанного интерфейса использованы в наполняемой при помощи голоса базе данных для информационно-поисковой и управляющей системы специального назначения.

На филологическом факультете МГУ проводятся исследования по автоматическому синтезу речи, в основу которых положено использование лингвистических знаний о русском языке. В ходе исследований разработана лингвистическая модель озвучивания текста, реализованная в виде программного продукта для ПЭВМ типа IBM PC XT/AT. В основе разработанной модели и созданной системы программного синтеза речи лежит идея совмещения методов компиляции оптимального набора аллофонных элементов речи и синтеза речи по коэффициентам линейного прогнозирования (КЛП). При этом метод компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а КЛП-синтез — возможность просодического оформления высказываний в зависимости от их коммуникативного типа.

Полученные результаты подтверждены экспериментально и являются весьма перспективными как при создании лингвистического ядра синтезатора, так и при разработке лингвистически ориентированных систем распознавания речи. Созданная аллофонная база данных достаточно полно отражает все многообразие спектров русской речи, является обобщенным набором распознаваемых единиц фонемной размерности и обеспечивает существенное сокращение объема памяти для хранения исходных элементов компиляции.

В Московском государственном техническом университете им. Н. Э. Баумана проводятся исследования в области создания средств речевого диалогового управления в сложных человеко-машинных системах, в частности в летательных аппаратах. В качестве реализации решения указанной задачи рассмотрено создание аппаратно-программного исследовательского комплекса, построенного на основе применения экспертного подхода, методов автоматизации экспериментов, проектирования и моделирования, а также эффективных универсальных и специализированных вычислительных средств.

Автономно исполняемые модули интеллектуального интерфейса подключены к полунатурному стенду, моделирующему объект управления и содержащему подсистемы распознавания и синтеза речи. Данная работа проведена по плану работ на НИР "Кабина".

Завершены работы по телефонному речевому роботу, который реализован в виде платы для IBM PC XT/AT. Система содержит интерфейсы системной магистрали и телефонной линии, а также речевой кодек на скорость 16 кбит/с, что позволяет осуществлять соединение с произвольно задаваемым абонентом и передавать ему речевое сообщение, формируемое компиляцией на уровне слов из банка данных, хранящихся в закодированном виде на диске ПЭВМ. В настоящее время база данных сформирована для задачи оформления извещений об оплате междугородных телефонных переговоров, она содержит порядка 90 словоформ и занимает 120 Кбайт. Разработанные инструментальные средства позволяют сформировать базу подобной сложности за несколько часов.

В Московском энергетическом институте проводятся исследования по следующим направлениям:

·        создание программно-аппаратного комплекса по вводу речевой информации в ПЭВМ;

·        исследования по сжатию и восстановлению речи;

·        исследования по дикторонезависимому распознаванию фонем и речевых команд.

В ходе исследований получены следующие результаты:

1. Создана программа, позволяющая озвучивать прикладные программы пользователей (создавать для них речевое и музыкальное сопровождение), написанные на разных языках программирования.

Разработан макет аппаратно-программного комплекса по вводу Непрерывной речи в режиме прямого доступа к памяти ПЭВМ с одновременной записью речи на твердый диск в реальном времени.

2. Создана программа сжатия и воспроизведения речи без потерь информации, работающая в реальном времени и позволяющая сжимать речь до 3—4 К байт/с при записи с частотой дискретизации 8—16 кГц через 8-разрядное АЦП.

3. Получены обнадеживающие результаты по дикторонезависимому распознаванию фонем и отдельных слов. Основное внимание уделено дикторонезависимому распознаванию гласных и щелевых звуков.

В Московском государственном лингвистическом университете проводятся исследования по формированию банка данных словоформ русского языка в качестве базового справочного материала и созданию машинной версии банка данных (свыше 3000 единиц).

В ходе исследований разработаны: правила дистрибуции гласных и согласных фонем для специальных подъязыков русского языка; правила ограниченного синтаксиса и семантики; правила формирования фонетически представленного и сбалансированного словаря.

Продолжаются работы по созданию автоматизированных обучающих систем (АОС), работающих в диалоговом режиме применительно к различным иностранным языкам. В АОС представлена фонетика, лексика и грамматика языка, являющегося объектом обучения. Разработана программная оболочка АОС, выгодно отличающаяся от существующих аналогов.

В Московском техническом университете связи и информатики (МТУСИ) проводятся исследования по разработке алгоритмов выделения речевых сигналов на фоне нестационарных помех.

На основе теории марковской фильтрации, идентификации параметров моделей динамических систем и спектрального представления сигналов разработаны (с учетом данных о речи диктора и типа помехи) методы, алгоритмы и программы повышения разборчивости речи, принятой на фоне нестационарных помех, содержащих квазидетерминированные составляющие. Созданы интерактивные системы повышения разборчивости речи, включающие ИБМ ПС/AT, аппаратные средства ввода-вывода речи, внешний программируемый вычислитель и математическое обеспечение.

Проведенные артикуляционные испытания интерактивной системы на реальных фонограммах заказчика показали повышение словесной разборчивости с 50 до 60 % и выше в зависимости от временной структуры и спектрального состава нестационарных помех.

В Санкт-Петербургском государственном университете проводятся исследования, направленные на разработку методов извлечения дополнительной информации из знаний о языке и предметной области, а также создания механизма реализации этой информации для продвижения в решении проблемы распознавания слитной речи при ограниченном объеме проблемно ориентированного словаря. На примере создания речевой информационной системы (выбор городских пешеходных маршрутов) показано, что предполагаемый механизм реализации знаний эффективно работает как на низших (акустических) уровнях распознавания, так и на высших (лингвистических) путем отбора конкурирующих гипотез на базе использования сведений о грамматике, синтаксисе, семантике и прагматике языка и сообщений. По результатам проведенных исследований на базе программно-реализованной нейроподобной сети, выполненной на основе ПЭВМ по упрощенной языковой модели (разновидности языковых грамматик), разработана демонстрационная речевая запросно-ответная система о городских пешеходных маршрутах с отображением на экране карты района города, указанием начального и конечного пунктов, кратчайшего маршрута между ними и перечня названий улиц и соответствующих расстояний.

 

Первоочередные задачи

Мировая и отечественная практика проведения исследований в области распознавания и синтеза речи показывает, что для достижения новых качественно более высоких результатов необходимо проведение комплексных исследований, объединяющих усилия и знания специалистов различных профессий — математиков, программистов, лингвистов, психологов, биологов и др.

Некоторые из первоочередных задач по организации и содержанию этих исследований можно сформулировать в следующем виде.

1. Анализ и интерпретация современных достижений в области символьной обработки и понимания текста, полученных и развиваемых в исследованиях по искусственному интеллекту; развитие математических и лингвистических методов анализа и распознавания на основе применения нейроподобных сетей и построения неявных марковских моделей, а также использования формальных грамматик; совершенствование методов, применяемых в теории связи, по повышению помехоустойчивости и надежности передачи информации; разработка методов анализа и распознавания речевых сигналов, учитывающих особенности и свойства человеческого восприятия речи в условиях воздействия различных дестабилизирующих факторов.

2. Разработка методов и средств построения банков данных и баз знаний о речи и создания на их основе исследовательского вычислительного комплекса (автоматизированного рабочего места), обеспечивающего накопление и обработку большого объема экспериментального речевого материала, а также возможность выявления и оценки статистически значимых закономерностей речи, составляющих основу системы источников знаний для всех уровней иерархической структуры систем распознавания и синтеза речи.

3. Разработка новых методов и алгоритмов анализа, распознавания и понимания речи, ориентированных на работу с базами знаний и высокопроизводительную вычислительную технику, и создание на их основе аппаратно-программных средств и макетов, подтверждающих эффективность разработанных (выбранных) алгоритмов и методов  применения накопленных знаний о речи для организации речевого диалога в заданном классе человеко-машинных систем.

4. Анализ новых возможностей в решении задач распознавания и синтеза речи, открывающихся при использовании последних достижений в области элементной базы и вычислительной техники, в том числе таких устройств, как цифровые процессоры обработки сигналов, транспьютеры, нейрокомпьютеры, ассоциативные запоминающие устройства и др.

 

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, № 6, 1998

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ

 

Ключевые слова: Распознавание речи, синтез речи, слитная речь, компилятивный синтез, понимание текста, задачи автоматизации.

Поделиться:
 
ПОИСК
 
elibrary crossref ulrichsweb neicon rusycon
 
ЮБИЛЕИ
ФОТОРЕПОРТАЖИ
 
СОБЫТИЯ
 
НОВОСТНАЯ ЛЕНТА



Авторы
Пресс-релизы
Библиотека
Конференции
Выставки
О проекте
Rambler's Top100
Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)
  RSS
© 2003-2022 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
 Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)