Другие журналы
|
научное издание МГТУ им. Н.Э. БауманаНАУКА и ОБРАЗОВАНИЕИздатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211. ISSN 1994-0408![]()
Адаптивная кластерная модель минимальных речевых единиц в задачах анализа и распознавания речи
# 02, февраль 2013 DOI: 10.7463/0213.0527867
Файл статьи:
![]() УДК004.934 Россия, Нижегородский государственный лингвистический университет им. Н.А. Добролюбова
Введение. При анализе устного текста на русском языке мы опираемся на наши точные знания в отношении его фонетического строя, количественного и качественного состава используемой фонетической системы, а также закономерностей ее функционирования в разговорной речи. Этими знаниями мы пользуемся, например, при транскрибировании потока речи. Однако если мы анализируем звучащий текст на неизвестном языке и нам недоступна информация, относящаяся к его тонкой структуре, то мы можем, либо, опираясь на наш лингвистический опыт, давать участкам речевого потока приблизительную интерпретацию в рамках Международного фонетического алфавита, либо, обратившись к акустическим понятиям, членить речь на некие минимальные звуковые единицы (МЗЕ) и давать им определенные метки. Очевидно, что второй подход со всех точек зрения наиболее информативен и универсален. Множество меток всех МЗЕ и составит, в таком случае, звуковой строй данного диалекта или языка. Проблема состоит в том, что разговорная речь по своим акустическим характеристикам широко варьируется, причем не регулярным образом, не только от одного языка к другому, но и от одного носителя к другому носителю одного и того же языка. В указанных условиях становится проблематичной сама идея выделения повторяющегося набора МЗЕ из разговорного потока. Кроме того, длительность отдельных МЗЕ не превышает нескольких миллисекунд, и это главное препятствие для применения традиционных методов теоретической лингвистики к разговорной (устной) речи. С другой стороны, до настоящего времени проблема не была преодолена и методами экспериментальной фонетики. И главная причина здесь – отсутствие адекватной системы описания отдельных фонем. В поисках путей решения указанной проблемы в недавно созданной информационной теории восприятия речи (ИТВР) [1] само понятие «фонема» впервые было строго определено в теоретико-информационном смысле как «множество однородных МЗЕ, объединенных в кластер по критерию минимального информационного рассогласования (МИР) в метрике Кульбака-Лейблера». Условно говоря, человеческий мозг объединяет и запоминает в себе как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждой отдельной фонемы в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом» (рис. 1). Рис. 1. Кластер реализаций фонемы и его информационный центр-эталон
Нетрудно понять, что этим определением одновременно решается множество актуальнейших проблем в области фонологического анализа: и вариативности разговорной речи, и априорной неопределенности, и адекватного описания звукового строя языка с кардинальным сжатием данных и, наконец, проблема обновления речевых баз данных (РБД) без разрушения их структуры. Критерий МИР. Несмотря на существующие различия в реализациях некоторой r-ой фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Можно поэтому утверждать, что одноименные реализации Нетрудно увидеть, что именно в понятии информационного центра (ИЦ) r-го множества реализаций одноименных МЗЕ Xrдается наиболее информативное описание свойств соответствующей фонемы. Одновременно становится очевидным и механизм формирования самого этого множества. Сначала анализируемый (входной) речевой сигнал X(t) в дискретном времени t = 0,1,.. разбивается на ряд последовательных сегментов данных x(t) длиной в одну МЗЕ: примерно 10–15 мс. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем Синтез адаптивного алгоритма. Предположим, что речевой образ каждой фонемы Проблемы возникают, однако, в случае отсутствия априори классифицированных выборок Выделим в анализируемом речевом сигнале X(t) от некоторого диктора первые Lотсчетов из соображений сохранения в них свойства приблизительной стационарности или однородности распределения Pr. Например, при стандартной частоте дискретизации телефонного канала связи в 8 кГц обычно полагают L = 100…200 (это те же 10 – 15 мс). Используем полученный минимальный сегмент данных
относительно первой МЗЕ (при равенстве
При нарушении данного неравенства в нашем начальном списке фонем появится второй элемент, и вслед за этим приравниваем число выявленных фонем R =2. В противном случае принимается решение об объединении выборок X1 и X2 в один речевой образ P1: в качестве или одной МЗЕ удвоенной длительности Lr = 2 L, если выборки смежные, или двух разных реализаций первой фонемы, если выборки не стыкуются. Равенство R=1 в обоих случаях сохраняется. Нетрудно понять, что в форме условия (2) реализуется проверка гипотез об однородности выборок, а понятие фонемы определяется здесь как кластер однородных МЗЕ по критерию МИР. Это типичная формулировка информационного (R+1)-элемента. Фонетический анализ речи. Вычисления по схеме (1), (2) повторяются циклически для всех последующих сегментов данных из речевого сигнала X(t), причем повторятся «нарастающим итогом» для переменного значения R=2,3,… Каждый очередной сегмент данных сопоставляется по правилу (2) одновременно со всеми R множествами Добавим к сказанному, что предложенный алгоритм имеет множество разнообразных модификаций за счет, главным образом, применения рекуррентных вычислительных процедур корреляционно-спектрального анализа. Среди них наибольший интерес представляет метод обеляющего фильтра (МОФ), основанный на авторегрессионной модели МЗЕ. В ранних работах [1-3] было показано, что в асимптотике, когда
Здесь Программа и результаты экспериментальных исследований. Для экспериментальных исследований предложенного алгоритма (1)...(3) была разработана информационная система фонетического анализа, обучения и тестирования слитной речи, основной интерфейс которой показан на рис. 2.
Рис. 2. Интерфейс информационной системы фонетического анализа, обучения и тестирования слитной речи
Программа экспериментальных исследований была разбита на два этапа [4]. На первом этапе осуществлялось формирование базы эталонов МЗЕ по группе тестируемых дикторов, а на втором – исследование особенностей звукового строя речи тех же дикторов в комфортных и некомфортных условиях. На обоих этапах для работы применялись специальные программные и аппаратные средства: динамический микрофон AKGD77 S и ламповый микрофонный предусилитель ARTTUBEMPProjectSeriesUSB. Частота дискретизации встроенного АЦП была установлена равной 8 кГц – общепринятая частота при обработке устной речи. Испытания проводились на ноутбуке следующей конфигурации: AsusX50V, 1024 Мбайт ОЗУ, WindowsXP, Matlab 6.5. Формирование фонетической базы эталонов происходило следующим образом. Вначале для каждой из основных (продолжительных) фонем русского языка было записано в комфортных условиях по одному образцу МЗЕ от выбранного диктора-мужчины. Затем к этим образцам были добавлены эталоны того же диктора в тех же условиях, но произнесённые в разное время суток. При этом диктор произносил каждую фонему по 15-20 раз. Звуковой сигнал вводился в информационную систему в реальном времени в режиме «Подготовка данных». Всего, таким образом, было сформировано шесть персональных баз эталонов от шести дикторов-мужчин, а также две базы эталонов от дикторов-женщин. На втором этапе каждый диктор в заведомо менее комфортных условиях: в нашем случае – после значительной физической нагрузки (пульс 140-160 ударов в мин.) произносил каждую из 21 фонем по 10 – 15 раз. И каждый раз информационной системой фиксировался соответствующий результат: текущее значение ВИР по отношению к заранее сформированной базе эталонов. Цель данного эксперимента – выбрать из общего списка фонем национального языка те фонемы, которые наиболее остро реагируют в своих реализациях на условия произнесения их диктором. Смысл этой цели очевиден: настраивая информационную систему на наиболее чувствительные фонемы, мы гарантируем максимальную чувствительность нашего восприятия по отношению к эмоциональному и физическому состоянию диктора. Важнейший момент – это количественная характеристика степени возбуждения диктора, а именно: ВИР между фонемами в текущем сигнале и их эталонами. Для иллюстрации сказанного на рисунках ниже представлены две диаграммы ВИР при произнесении фонемы «Х» некоторым диктором-мужчиной в комфортных (рис. 3) и некомфортных (рис. 4).условиях. Здесь центр окружностей характеризует положение первого эталона в пределах Х-кластера одноименных МЗЕ.
А каждая окружность – это результат очередного произнесения фонемы. Ее радиус определяется значением ВИР по отношению к эталону. Чем больше радиус, тем хуже качество произнесения. Видно, что при изменении условий на некомфортные в среднем на порядок (!) увеличилась вариативность произнесений данного диктора (см. шкалу делений по оси абсцисс). Аналогичные результаты были получены и для других дикторов из контрольной группы. Средние значения ВИР для типичных диктора-мужчины и диктора-женщины по всему списку фонем в зависимости от условий их произнесения представлены в следующей таблице.
Здесь серым фоном отмечены наиболее чувствительные к условиям своего произнесения фонемы. Видно, что, по крайней мере, три из них: «Х», «М» и «О» одинаково высокочувствительны как в исполнении мужчин, так и женщин. Заключение. К числу приоритетных направлений применения ИТВР и ее когнитивной кластерной модели МЗЕ (рис. 1) наряду с автоматической обработкой и распознаванием речи относятся, прежде всего, проблемы современной диалектологии. Как сопоставить разные диалекты между собой по степени их объективной близости или различий на базовом, фонетическом, уровне? И какова количественная мера таких различий? Какие тенденции: сближения или удаления по фонетическому строю доминируют в настоящий момент в процессе исторического развития тех или иных диалектов? И, наконец, как можно лучше обучиться данному диалекту или, напротив, максимально ослабить его? – Благодаря методологии ИТВР впервые в мировой науке открываются возможности дать четкие ответы на все перечисленные выше и подобные им вопросы. В их изучении и состоит главная цель предлагаемого исследовательского подхода. А ожидаемые по результатам исследований выводы и обобщения должны составить материал для подготовки к изданию первой фонологической карты России с многоуровневым членением языкового ареала на родственные диалекты при учете степени их звуковых различий, т.е. впервые в практике лингвистического картографирования – с указанием переходных диалектных зон. Осуществление предлагаемого проекта стимулирует, в свою очередь, научные исследования в области не только современной лингвистики, но и информатики в целом, прежде всего, прикладной информатики. Полученные результаты открывают качественно новые возможности для решения целого ряда актуальных задач, которые до настоящего времени остаются не решенными или решены неудовлетворительно, в том числе: 1) создание персональных (под каждого диктора) речевых баз данных; 2) анализ качества устной речи на базовом, фонетическом уровне; 3) автоматическое тестирование качества систем речевой связи и другие.
Список литературы
1. Савченко В.В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9. 2. Савченко В.В., Акатьев Д.Ю. Технология обучения и тестирования речи на основе когнитивной кластерной модели минимальных речевых единиц // Нелинейная динамика в когнитивных исследованиях: сб. трудов Всерос. конф. Н. Новгород, 2011. С. 175-177. 3. Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431. 4. Савченко В.В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера. // Изв. вузов России. Радиоэлектроника. 2011. Вып. 3. С. 9-19. Публикации с ключевыми словами: автоматическое распознавание речи, информационное рассогласование, адаптивная кластерная модель, речевые единицы Публикации со словами: автоматическое распознавание речи, информационное рассогласование, адаптивная кластерная модель, речевые единицы Смотри также: Тематические рубрики: Поделиться:
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|