WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Модель и алгоритмы анализа и сегментации речевого сигнала

На правах рукописи

Конев Антон Александрович

МОДЕЛЬ И АЛГОРИТМЫ АНАЛИЗА И

СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА

Специальность 05.13.18 - Математическое моделирование,

численные методы и комплексы программ

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

Томск - 2007 2

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники

Научный руководитель – доктор технических наук, профессор Бондаренко Владимир Петрович

Официальные оппоненты: доктор технических наук, профессор Кочегуров Владимир Александрович кандидат физико-математических наук, с.н.с.

Афонин Геннадий Иванович

Ведущая организация – Алтайский государственный университет

Защита состоится «17» мая 2007г. в 15.00 часов на заседании диссертационного совета Д.212.268.02 в Томском государственном университете систем управления и радиоэлектроники по адресу:

634034, г.Томск, ул. Белинского, 53, НИИ АЭМ при ТУСУР.

С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу:

634045, г.Томск, ул. Вершинина, 74.

Автореферат разослан «13» апреля 2007 г.

Ученый секретарь диссертационного совета А. Я. Клименко Актуальность работы. Распознавание слитной речи и идентификация человека по голосу – особенно сложные проблемы для открытого множества дикторов. Основными недостатками существующих программных продуктов являются: необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью. Так, по данным американского института стандартов (NIST) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов – от 26% до 38%, для лекционных залов – от 28% до 52%, для новостных передач – 9,9%. Ещё одна проблема – отсутствие конкурентоспособных систем распознавания слитной речи на русском языке.

Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года, но большая часть рынка – это распознавание голосовых команд и синтез речи.

Большой вклад в развитие речевых технологий внесли такие ученые, как:

Г.Фант, Дж.Фланаган, М.А.Сапожков, В.Н.Сорокин, В.И.Галунов, Б.М.Лобанов, Т.К.Винцюк, Р.К.Потапова, Л.В.Златоустова, А.В.Аграновский, Д.А.Леднов, Н.Г.Загоруйко, Ю.А.Косарев, А.Л.Ронжин, М.В.Хитров, С.Л.Коваль, В.Г.Михайлов, Э.Г.Кнеллер.

Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью.

Актуальной областью применения анализа речевого сигнала является медицина. Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта. Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова.

Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани. В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона.

На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Молчанов, Фланаган. Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план. В настоящее время вновь стали появляться работы в этом направлении (Галунов, Кнеллер).

Для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала. При этом важно, что он должен проводиться с учетом особенностей слухового восприятия.

Таким образом, задача построения модели слухового восприятия речевого сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной.

Цель исследований – построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека.

Для достижения поставленной цели необходимо решить следующие задачи:

1. анализ особенностей слухового восприятия (по существующим литературным источникам);

2. построение модели обработки речевого сигнала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

3. разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования;

4. исследование модели и алгоритмов;

5. сопоставление модели с имеющимися данными по функционированию слуховой системы.

Методы исследований. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики.

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата; адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы; большим количеством экспериментальных данных, подтверждающих теоретические результаты.

Научную новизну, полученных в работе результатов определяют:

1. алгоритм и численные методы измерения частоты основного тона;

2. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки;

3. модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы.

Практическая значимость. Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса:

1. создавать программное обеспечение для детального анализа речевого сигнала;

2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;

3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.

Положения, выносимые на защиту:

1. модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

2. алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;

3. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».

Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК).

Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоритма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров. Постановка задачи осуществлялась совместно с руководителем – д.т.н., проф. В.П.

Бондаренко, разработка программного комплекса проводилась совместно с В.П. Коцубинским.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений.

Общий объем работы составляет 129 страниц, в том числе 58 рисунков и таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, научная новизна исследований, определена цель работы и задачи исследований, дана общая характеристика работы, сформулированы основные положения, выносимые на защиту.

В первой главе приводится подход к созданию модели, основывающийся на иерархической модели речевой системы и иерархической системе речевого сигнала, а также постановка задачи.

Представлена иерархическая модель восприятия речи, состоящая из нескольких уровней: физического, параметрического описания сигнала, фонетического, морфологического, синтаксического и прагматического. Для решения задач верхнего уровня, т.е. понимания смысла высказывания, необходимо решение задач нижних уровней.

Нижний уровень восприятия включает в себя исходное описание сигнала, которое представляется в координатах интенсивность-время-частота и параметрическое описание, включающее сегментацию и описание типов и параметров сегментов. При этом различается два основных типа структур речевого сигнала: периодическая (вокализованные звуки) и шум (невокализованные). Периодическая структура возникает при задействовании в артикуляции источника колебаний – голосовых связок. Одним из наиболее значимых параметров периодического сигнала является частота основного тона. Шумовые источники подразделяются на турбулентные и импульсные.

Кроме периодического и шумового типов звуков, существуют звуки, при образовании которых принимают участие оба типа источников.

Основываясь на характере образования звука, в фонетике принята классификация звуков по: наличию/отсутствию голосового источника (звонкие и глухие), способу образования (сонорные, смычные, щелевые) и месту образования (губные, зубные и т.д.). Анализ фонетического строя русского, английского, французского, немецкого и арабского языков показал, что классификация по месту образования различна, а по наличию голосового источника и способу образования для всех языков одинакова. Это подтверждается частотой встречаемости различных классов звуков.

Например, количество вокализованных звуков в слитной речи исследованных языков практически не отличается и составляет 75-79%.

Исходя из этих данных, можно сделать вывод, что описание структуры речевого сигнала, а следовательно, и его сегментация, состоит из следующих этапов:

1. по наличию голосового источника;

2. по способу образования;

3. по месту образования.

При этом первые два этапа относятся к физическому уровню восприятия, а третий к фонетическому и зависит от структуры языка.

Также представлено описание строения слуховой системы. Строение периферической части слуховой является основой для построения модели.

На основе проанализированных данных сделана постановка задачи, которая заключается в построение модели восприятия речевых сигналов, учитывающей особенности как слухового восприятия человека, структуры сигнала, так и фонетики.

Во второй главе описана модель обработки речевого сигнала на периферии слуховой системы человека.

Описаны основные функции по обработке сигналов, выполняемые органами восприятия человека. Считается, что основные амплитудночастотные преобразования происходят во внутреннем ухе, в котором основную мембрану принято рассматривать как набор резонансных фильтров. Приведены частотные зависимости, на основе которых строится доказательство адекватности разработанной системы фильтров: зависимость координаты максимального колебания основной мембраны от частоты, зависимость ширины критической полосы слуха от центральной частоты (Бекеши, Альтман).

Один из основных моментов при построении модели – установление зависимости между шириной критической полосы и шкалой частот.

Полученное распределение резонансных частот F(x) по длине основной мембраны (xm=35 мм) принимает вид (1). Верхняя частота анализа для слуховой системы равна FВ=20000 Гц, а нижняя FН=20 Гц.

Коэффициенты и определяются из соотношения (2):

где Fкр(x) – ширина критической полосы.

Построение системы фильтров, учитывающей свойства слуховой системы, возможно при правильном соотношении критических полос слуха и добротности Q(x) системы фильтров. Это соотношение определяется как (3):

где b – коэффициент связи критической полосы и добротности.

Для сравнения разработанной системы фильтров со слуховой системой были проанализированы зависимости, имеющие место в слуховой системе и соответствующие им зависимости, полученные при моделировании (рис. 1).

Рисунок 1. а) – зависимость ширины критической полосы от центральной частоты F (x); б) – зависимость добротности системы фильтров от F (x), где fкр (x) – ширина критической полосы [Бекеши]; Fкр (x) – аппроксимация (2);

q(x) и Q(x) – соответствующие им добротности Весовые функции системы фильтров имеют вид:

p(x)= 2*F(x) – резонансные частоты выбранных точек на основной мембране, рад/сек;

Tз – половина длительности импульсной переходной характеристики фильтров (время задержки сигнала), обеспечивающая физическую реализуемость системы фильтров.

Система фильтров представляется сверткой вида (6):

где h(t, x) – импульсная переходная характеристика фильтра;

S(t) – входной сигнал в момент времени t;

y(t, x) – сигнал на выходе фильтра в момент времени t.

Таким образом, результатом свертки сигнала с весовыми функциями фильтра (4) и (5) являются его синусная ys(t,x) и косинусная yс(t,x) составляющие.

При этом интенсивность (7) и мгновенная частота (8) вычисляются как:

Сильное перекрытие амплитудно-частотных характеристик системы фильтров приводит к тому, что интенсивности сигналов по соседним каналам оказываются сильно коррелированными между собой. Одновременная маскировка позволяет выделить частотные области сильной корреляции.

Результатом одновременной маскировки является массив бинарных значений, определяющийся как (9):

W0 – весовые коэффициенты одновременной маскировки.

Для оценки разрешающей способности системы фильтров по времени и частоте было использовано понятие тела неопределенности. Исследование тела неопределенности показало, что наиболее точное соответствие разрешающей способности разработанной системы фильтров и слуховой системы наблюдается при коэффициенте b=2, что подтверждается анализом реальных речевых сигналов.

Дискретизация длины основной мембраны при цифровой фильтрации производится следующим образом:

где k – номер текущего канала фильтрации;

dx – шаг точек на основной мембране внутреннего уха;

K – количество каналов фильтрации; 0 k K–1.

Интенсивность и мгновенная частота при этом вычисляется как:

Пример реального речевого сигнала после одновременной маскировки (фраза «Гаси огонь») представлен на рис. 2. По оси абсцисс – дискретное время (Fs=12кГц), по оси ординат – частотные каналы фильтрации (K=128), FВ=3 кГц, FН=50 Гц.

Рисунок 2. Структура речевого сигнала после одновременной маскировки Таким образом, построенная модель адекватна слуховой системе человека, позволяет представлять описание сигнала в координатах интенсивность-время-частота, а также выделять наиболее информативные для слуховой системы участки сигнала.

В третьей главе приведены алгоритм сегментации речевого сигнала по признаку наличия/отсутствия голосового источника и алгоритм выделения частоты основного тона (ЧОТ), а также результаты их исследования.

Алгоритм сегментации состоит из трех этапов:

1. определение наличия периодической структуры на дискретном временном отсчете;

2. определение границ сегментов;

3. устранение ошибочно определенных границ.

Для определения наличия периодической структуры применяется свертка речевого сигнала с набором масок на каждом временном отсчете.

Набор масок представляет собой частотный срез речевого сигнала после одновременной маскировки для различных частот основного тона.

Таким образом, маски и сигнал после одновременной маскировки имеют бинарный формат, и решение о наличии периодичности принимается, исходя из значения меры различия, вычисляемой по (13). Если полученное значение не превышает значение порога min, то временной отсчет признается вокализованным, иначе – невокализованным. При свертке масок и сигнала учитывается две гармоники основного тона.

где – исключительное или (сложение по модулю 2);

Pм(k,k0) – набор масок для определения периодической структуры;

k0 – номер частотного канала, соответствующий ЧОТ.

Далее определяются границы интервалов времени, на которых все отсчеты имеют одинаковый признак вокализованности. После чего происходит устранение ошибочно проставленных границ (рис. 3).

Сокращение ошибок первого рода (неверное определение сегмента как вокализованного) происходит за счет ограничения минимальной длительности вокализованного участка (порог min1) и проверки значения изменения частоты основного тона на соседних временных отсчетах.

вокализованного сегмента как невокализованного) происходит за счет ограничения минимальной длительности невокализованного участка, находящегося между двумя вокализованными (порог min2).

Значение порогов min1 и min2 выбиралось, основываясь на разрешающей способности по времени системы фильтров, установленной при исследовании тела неопределенности, в области исследуемых ЧОТ.

Входными данными алгоритма являются массив значений, полученный после одновременной маскировки речевого сигнала. Выходными – массив значений k0(t), т.е. номеров каналов, соответствующих ЧОТ, на каждом временном отсчете.

Рисунок 3. Алгоритм выделения вокализованных участков сигнала Обозначения, используемые в алгоритме:

Vocal – определение наличия периодической структуры на одном временном отсчете (13);

Vt – бинарный признак вокализации текущего временного отсчета;

Vt-1 – бинарный признак вокализации предыдущего временного отсчета;

V(t1,t) – бинарный признак вокализации интервала от t1 до t;

V(t2,t1) – бинарный признак вокализации интервала от t2 до t1;

min1 – минимальная длительность вокализованного сегмента;

min2 – минимальная длительность невокализованного сегмента, находящегося между двумя вокализованными;

t – текущий момент времени;

t1 – момент времени начала текущего вокализованного сегмента;

t2 – момент времени конца предыдущего вокализованного сегмента;

T – длительность сигнала;

Dif – разность номера канала, соответствующего частоте основного тона, на текущем временном отсчете и номера канала на предыдущем временном отсчете, т.е. k0, t – k0, t-1;

Блок №1 – блок сокращения ошибок первого рода;

Блок №2 – блок сокращения ошибок 2-го рода.

Экспериментальные исследования алгоритмов сегментации и выделения ЧОТ проводились с параметрами: Fs=12 кГц; разрядность сигнала: 16 бит;

количество каналов: моно; Fв=3000 Гц; Fн=50 Гц; K=128; b=2; верхняя граница определения частоты основного тона: F0в=400 Гц; нижняя граница определения частоты основного тона: F0н=70 Гц; число учитываемых гармоник основного тона: 2; количество масок для определения вокализованной структуры сигнала: 56; min1=0,033 сек; min2=0,025 сек.

Для выбора наилучшего значения порога min и оценки надежности сегментации русской слитной речи использовался речевой материал, включающий отрывок текста, состоящий из 36 сегментов, произнесённый дикторами (5 мужчин и 5 женщин). И отрывок другого текста, состоящего из 190 сегментов, произнесённый диктором мужчиной. Общее количество сегментов в исследовавшихся текстах составило 550 сегментов. Сравнение автоматической сегментации проводилось с ручной, отсегментированной с точностью до сотых долей секунды.

Критериями определения надежности автоматической сегментации были выбраны: количество пропущенных границ (P-), количество лишних границ (P+) и количество границ, определенных с погрешностью не более 0,01 сек (P0+ P1). Все значения относительно количества границ, определенных при ручной сегментации. В результатах также представлено количество границ, определенных с погрешностью 0,02 сек, 0,03 сек и более 0,03 сек.

Результаты исследований (табл. 1) по выбранным критериям показали, что надежность алгоритма не зависит от пола диктора и от длительности речевого сигнала.

Таблица 1. Результаты исследования автоматической сегментации Таким образом, наилучшие результаты были получены с порогом min=6:

P-=0,02; P+=0,09; P0+ P1=0,91.

Также было проведено исследование надежности сегментации английской слитной речи. Исследование проводилось на 30 фразах, произнесенных на английском языке диктором-мужчиной носителем языка.

Полученные результаты практически не отличаются от результатов, полученных для русского языка: P-=0; P+=0,06; P0+ P1=0,9 (табл. 2).

Таблица 2. Результаты исследования автоматической сегментации Для анализа помехоустойчивости алгоритма сегментации были проведены эксперименты на речевом сигнале диктора-мужчины без шума, а также с шумом (белый шум с отношением сигнал/шум 0 и -3 дБ), что показано в табл.3.

Таблица 3. Результаты исследования помехоустойчивости сегментации ( сигнал/шум Результаты исследования надежности сегментации при работе в шумах:

1. снижение относительного количества пропущенных существующих границ: P-=0,22 (для 0 дБ), P-=0,37 (для -3 дБ);

2. отношение количества определенных несуществующих границ сигналов с шумом к количеству подобных границ сигнала без шума равно 2,9 (для 0 дБ) и 3,5 (для -3 дБ);

3. Отношение количество правильно определенных временных значений границ (с учетом погрешности в 0,01 сек) сигналов с шумом к количеству подобных значений сигнала без шума равно 2,2 (для 0 дБ) и 3,1 (для -3 дБ).

Эксперимент, оценивающий влияние скачков ЧОТ на надежность сегментации (рис. 4, 5), был проведен на тестовых сигналах с различной начальной ЧОТ (F1) и различной амплитудой скачка (F). Тестовые сигналы сформированы из 8 синусоид, кратных заданной ЧОТ.

Рисунок 4. Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды увеличения ЧОТ Рисунок 5. Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды уменьшения ЧОТ Из полученных данных видно, что количество невокализованных временных отсчетов не превысило порог min2, который при Fs=12 кГц составляет 300 отсчетов, поэтому после сегментации этот участок был признан вокализованным, т.е. скачок частоты основного тона не оказывает влияния на надежность сегментации.

Частота основного тона определяется по (12) для k=k0.

Погрешность вычисленного значения ЧОТ определялась как разность между экспериментально полученным значением и эталонным, которое задавалось при создании тестового синусоидального сигнала, состоящего из 8 гармоник основного тона (рис.6).

Рисунок 6. Относительная погрешность определения частоты основного тона Таким образом, погрешность измерения частоты основного тона составляет не более 0,6%.

Исследование влияния частотной и амплитудной модуляции на точность определения ЧОТ проводилось на тестовых сигналах синусоидальных сигналах с различными значениями индекса частотной модуляции (M=0,1;

0,3; 0,5; 0,7; 0,9), глубиной амплитудной модуляции (m=0,1;0,3; 0,5; 0,7; 0,9), частотой основного тона (F0=90; 105; 160; 240; 360 Гц) и частотой модуляции (Fm= 5; 10; 20; 30 Гц).

Рисунок 7. Абсолютная погрешность определения значения ЧОТ при Рисунок 8. Абсолютная погрешность определения значения ЧОТ при Таким образом, погрешность определения ЧОТ при частотной модуляции для наиболее часто встречающихся Fm10 Гц и M0,5 не превышает 5 Гц или 6%. Для максимальных из исследованных значений Fm=30 Гц и M=0,9 погрешность достигает 14,5%.

При амплитудной модуляции погрешность для Fm10 Гц и m0,5 не превышает 1 Гц или 1,5%. Для Fm=30 Гц и m=0,9 – достигает 6 Гц или 7%.

Исследование точности определения ЧОТ в шумах для речевых сигналов с отношением сигнал/шум, равным 0 и -3 дБ (помеха – белый шум) показало, что процент грубых ошибок, т.е. определения как ЧОТ частот более высоких гармоник ОТ, составил 2,5% и 5,3% соответственно.

При отношении сигнал/шум, равном 0 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 87% (в том числе менее 1,5% - 57%). При отношении сигнал/шум, равном -3 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 61% (в том числе менее 1,5% - 33%).

В четвертой главе представлена программная реализация разработанных модели и алгоритмов. Приведена структура программного комплекса по исследованию речевого сигнала. Обоснована возможность применения комплекса в исследованиях, направленных на получение параметров речевого сигнала, позволяющих определить изменения органов речеобразования, характерных для рака гортани различных стадий.

Приведена классификация рака гортани на стадии заболевания, исходя из его распространенности, по системе TNM.

Представлены результаты исследований речевых сигналов онкологических больных на разных стадиях заболевания. При более детальном анализе параметров речевого сигнала больных раком гортани, данный программный комплекс может служить основой для создания программ, проводящих диагностику наличия заболеваний, которые вызывают изменения в голосообразующем тракте (в том числе рака гортани), а также программ, позволяющих производить контроль качества проводимого лечения при лучевой и химиотерапии. На сегодняшний день методы, при помощи которых производится оценка размеров опухоли, либо недостаточно точны (зеркальная ларингоскопия), либо требуют дополнительного дорогостоящего оборудования, а иногда не могут применяться слишком часто (томография, рентген).

Рисунок 9. Структура программного комплекса на уровне блоков Программный комплекс по исследованию речевого сигнала состоит из программно реализованных модулей, объединенных в шесть блоков:

Блок создания файлов для обработки речевого сигнала:

1. модуль расчета весовых функций hc(t,k) (4) и hs(t,k) (5);

2. модуль расчета весовой функции одновременной маскировки W0(k, ki);

3. модуль формирования набора масок Pм(k) на основе W0(k, ki );

Блок предварительной обработки речевого сигнала состоит из двух модулей, параллельно совершающих свертку речевого сигнала S(t) с весовыми функциями системы фильтров hc(t, k) и hs(t, k) (6).

Блок выделения параметров речевого сигнала подразделяется на:

1. модуль вычисления массива значений интенсивностей I(t, k) (11);

2. модуль вычисления массива значений мгновенных частот F(t, k) (12).

Блок выделения вокализованных участков речевого сигнала:

1. модуль одновременной маскировки речевого сигнала (9);

2. модуль определения наличия периодической структуры на одном временном отсчете речевого сигнала (13);

3. модуль сегментации речевого сигнала по наличию голосового источника (рис. 3).

Блок выделения параметров вокализованных сегментов речевых сигналов подразделяется на:

1. модуль вычисления номеров каналов kn, соответствующих частотам гармоник основного тона;

2. модуль выделения массива значений интенсивностей гармоник основного тона In(t, kn);

3. модуль выделения массива значений мгновенных частот гармоник основного тона Fn(t, kn);

4. модуль вычисления величины девиации частоты основного тона.

Блок визуализации параметров речевого сигнала позволяет сохранять полученные графики как в автоматическом, так и в ручном режиме.

Модули, входящие в блок визуализации:

1. модуль визуализации частоты гармоник основного тона речевого сигнала – Fn(t, kn);

2. модуль визуализации интенсивностей гармоник основного тона речевого сигнала – In(t, kn);

3. модуль визуализации относительных интенсивностей гармоник основного тона речевого сигнала, определяющихся как (14):

4. модуль визуализации энергии речевого сигнала на каждом временном отсчете;

5. модуль визуализации экстремумов интенсивностей речевого сигнала, позволяющий оценить частотное расположение максимумов спектра для исследования невокализованных сегментов речевого сигнала.

В исследованиях речевых сигналов больных с различными стадиями рака гортани использовались следующие параметры:

1. наличие вокализации звуков;

2. частота основного тона;

3. интенсивность основного тона;

4. динамика изменения частоты основного тона;

5. девиация частоты основного тона;

6. динамика изменения интенсивности основного тона;

7. отношение интенсивности гармоник к интенсивности основного тона.

Были выявлены закономерности, представленные в табл. 4.

2 стадия нестабильная или повышенная нестабильная В заключении приведены основные научные и практические результаты диссертационной работы.

1. Обоснован подход к моделированию механизмов восприятия звуковых сигналов.

2. Установлены зависимости между шириной критических полос и частотной шкалой восприятия.

3. Разработаны алгоритмы и численные методы одновременной маскировки, измерения мгновенной частоты и интенсивности сигнала.

4. Разработан алгоритм сегментации речевого сигнала по наличию голосового источника, позволяющий достичь надежности 0,89-0,93.

5. Разработаны алгоритм и численные методы измерения ЧОТ, позволяющие обеспечить погрешность не более 0,6%.

6. Разработанные алгоритмы измерения частоты и интенсивности гармоник основного тона позволяют использовать их для создания систем диагностики заболеваний речеобразующих органов, в том числе рака гортани.

Основные результаты диссертации опубликованы в следующих работах:

В рецензируемых ВАК журналах:

1. Конев А. А. Обработка речевых сигналов в задачах идентификации / В.

П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Известия ВУЗов «Физика», 2006. – Т. 49 – Вып.9. – С. 207-210.

2. Конев А. А. Особенности речевого сигнала при опухоли гортани / Л.

Н. Балацкая, А. Н. Квасов, А. А. Конев, С. Ю. Чижевская, Е. Л.

Чойнзонов // Известия ВУЗов «Физика», 2006. – Т. 49 – Вып.9. – С. 290Конев А. А. Математическое и программно-алгоритмическое обеспечение в задачах идентификации и распознавания речи / В. П.

Бондаренко, А. А. Конев, Р. В. Мещеряков, А. А. Шелупанов // Вестник СибГАУ. – Красноярск, 2006. – С. 11-14.

В других изданиях:

4. Konev A. A. Allocation speech vocal sounds / V. P. Bondarenko, A. A.

Konev, R. V. Mescheriakov // Interactive Systems And Technologies: The Problems of Human – Computer Interaction. Collection of scientific papers. Ulyanovsk: UlSTU, 2005. – P. 213-217.

5. Конев А. А. Параметрическое описание сегментов речевого сигнала / В. И. Голубев, А. А. Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – С. 113Конев А. А. Выделение ключевых слов / А. А. Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск:

Издательство ТУСУРа, 2005. – С. 128-130.

7. Конев А. А. Сегментация речевого сигнала / Д. Н. Великоцкий, А. А.

Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – С. 208-210.

8. Конев А. А. Сегментация речевого сигнала / А. А. Конев, А. А.

Пономарёв // Сборник трудов XVI сессии Российского акустического общества. Том III – М.: ГЕОС, 2005. – С. 44-47.

9. Конев А. А. Выделение вокализованных звуков в слитной речи / А. А.

Конев, В. И. Тихонова // Сборник трудов XVI сессии Российского акустического общества. Том III – М.: ГЕОС, 2005. – С. 47-50.

10. Конев А. А. Сопоставительный анализ звукового строя речевых сигналов / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 102-107.

11. Конев А. А. Параметрическое описание гласных звуков / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 108-111.

12. Конев А. А. Особенности структуры вокализованных звуков в слитной речи / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 111-116.

13. Konev A. A. Biologic feedback formation by vocal rehabilitation / L.

Balatskaya, V. Bondarenko, E. Choynzonov, A. Konev, R. Mescheriakov // Proceedings of the 11th International Conference “Speech and Computer” SPECOM’06. – St. Petersburg, 2006. – P. 251-257.

14. Конев А. А. Особенности речевого сигнала у больных с опухолью гортани / Л. Н. Балацкая, А. А. Конев, Е. Л. Чойнзонов // Сборник трудов XVII сессии Российского акустического общества. Том III – М.: ГЕОС, 2006. – С. 5-8.

15. Конев А. А. Программный комплекс для исследования речи / А. А.

Конев, Е. Ю. Костюченко, А. А. Пономарев // Сборник трудов XVII сессии Российского акустического общества. Том III – М.: ГЕОС, 2006. – С. 23-27.





Похожие работы:

«Хохлов Алексей Анатольевич МОДЕЛИРОВАНИЕ ДИФРАКЦИИ ЛИНЕЙНО ПОЛЯРИЗОВАННОГО СВЕТА НА МНОГОСЛОЙНЫХ ТОНКОПЛЁНОЧНЫХ ПОКРЫТИЯХ 05.13.18 – математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва–2011 Работа выполнена на кафедре систем телекоммуникаций Российского университета дружбы народов Научный руководитель : доктор физико-математических наук, профессор Севастьянов Леонид...»

«УДК 515.145.2 + 515.146.3 Онищенко Александр Юрьевич Когомологии пространства свободных петель односвязных 4–многообразий Специальность 01.01.04 — геометрия и топология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико–математических наук Москва — 2011 Работа выполнена на кафедре дифференциальной геометрии и приложений Механико–математического факультета...»

«ГАЛИМЗЯНОВА АЛСУ УЛЬФАТОВНА СИНТЕЗ МОДИФИЦИРОВАННЫХ СЕРОЙ И ФЕНОЛАМИ ОЛИГОМЕРОВ ОЛЕФИНОВ И ДИЕНОВ И ИХ СВОЙСТВА 02.00.06 – Высокомолекулярные соединения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Уфа – 2007 www.sp-department.ru 2 Работа выполнена в государственном образовательном учреждении высшего профессионального образования Башкирский государственный университет. Научный руководитель : доктор химических наук, профессор Биглова Раиса...»

«УДК 517.956.35 Чалкина Наталья Александровна Достаточные условия существования инерциального многообразия для волнового уравнения с сильной диссипацией 01.01.02 — дифференциальные уравнения, динамические системы и оптимальное управление Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва — 2012 Работа выполнена на кафедре дифференциальных...»

«КОРНИЛОВ Дмитрий Александрович ИССЛЕДОВАНИЕ СВОЙСТВ ФУЛЛЕРЕНОВ И НАНОТРУБОК МЕТОДОМ МОЛЕКУЛЯРНОЙ ДИНАМИКИ Специальность 01.04.07 – Физика конденсированного состояния Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Санкт-Петербург 2003 г. Работа выполнена в государственном образовательном учреждение высшего профессионального образования Санкт-Петербургский государственный политехнический университет Научный руководитель : доктор...»

«Фролов Александр Геннадьевич МАТЕМАТИЧЕСКИЕ МОДЕЛИ И МЕТОД КОЛЛОКАЦИИ В ТЕОРИИ СЛАБОНАПРАВЛЯЮЩИХ ДИЭЛЕКТРИЧЕСКИХ ВОЛНОВОДОВ 05.13.18 – математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук КАЗАНЬ 2012 Работа выполнена на кафедре прикладной математики федерального государственного автономного образовательного учреждения высшего профессионального образования Казанский...»

«Степанов Андрей Александрович Электрохимическая полимеризация пиррола на поверхности углеродных материалов для создания гемосорбентов 05.17.03 Технология электрохимических процессов и защита от коррозии АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Москва – 2011 Работа выполнена на кафедре технологии электрохимических процессов Российского химико-технологического университета им. Д.И. Менделеева и в Научно-исследовательском институте скорой...»

«Макарова Елена Станиславовна ТЕРМОДИНАМИКА РАСТВОРОВ ПОЛИЭЛЕКТРОЛИТОВ В ГАУССОВОМ ЭКВИВАЛЕНТНОМ ПРЕДСТАВЛЕНИИ В РАМКАХ МЕЗОСКОПИЧЕСКИХ МОДЕЛЕЙ. ВОДНЫЙ РАСТВОР ХОНДРОИТИНСУЛЬФАТА 02.00.04-физическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Иваново 2008 www.sp-department.ru Работа выполнена в Учреждении Российской академии наук Институте химии растворов РАН Научный руководитель : кандидат физико-математических наук, доцент НОГОВИЦЫН...»

«Шаймухаметова Эльвира Рамилевна ИК-СПЕКТРОСКОПИЧЕСКОЕ ИЗУЧЕНИЕ КОНФОРМАЦИОННОЙ ДИНАМИКИ МАКРОМОЛЕКУЛ ПОРИСТЫХ ПОЛИМЕРОВ Специальность 01.04.05 – оптика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Казань – 2012 Работа выполнена на кафедре оптики и нанофотоники Института физики ФГАОУ ВПО Казанский (Приволжский) федеральный университет доктор физико-математических наук, профессор Научный руководитель : Камалова Дина Илевна доктор...»

«Романенко Сергей Владимирович Феноменологическое моделирование аналитических сигналов в форме пиков 02.00.02 — аналитическая химия Автореферат диссертации на соискание ученой степени доктора химических наук Томск 2006 2 Работа выполнена на кафедре физической и аналитической химии Томского политехнического университета Научный консультант : доктор химических наук А. Г. Стромберг Официальные оппоненты : доктор физико-математических наук, в.н.с. Померанцев А.Л. доктор химических...»

«Ланцов Алексей Дмитриевич ПРЯМАЯ КОРРЕЛЯЦИОННАЯ ОБРАБОТКА СПЕКЛ-МОДУЛИРОВАННОГО ЛАЗЕРНОГО ИЗЛУЧЕНИЯ ДЛЯ ИЗМЕРЕНИЯ ПАРАМЕТРОВ ДЕФОРМАЦИИ ОБЪЕКТОВ Специальность 01.04.21 – Лазерная физика Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Владивосток 2008 2 Работа выполнена в Дальневосточном государственном техническом университете (ДВПИ им. В.В. Куйбышева). Научный руководитель : доктор физико-математических наук, профессор Витрик Олег...»

«Шарафуллин Ильдус Фанисович ВЛИЯНИЕ ВНЕШНИХ ПОЛЕЙ НА ДИНАМИЧЕСКИЕ ВЗАИМОДЕЙСТВИЯ В СЕГНЕТОМАГНИТНЫХ КРИСТАЛЛАХ Специальность 01.04.02 – Теоретическая физика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва - 2011 Работа выполнена на кафедре статистической радиофизики и связи Башкирского государственного университета Научный руководитель : доктор физико-математических наук, профессор М.Х. Харрасов Официальные оппоненты : доктор...»

«Киселев Александр Сергеевич Динамика нелинейных волновых полей в многомерных теориях гравитации 01.04.02 – теоретическая физика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Ярославль 2011 Работа выполнена на кафедре общей физики Ярославского государственного педагогического университета им. К.Д. Ушинского Научные руководители: доктор физико-математических наук, профессор Кречет Владимир Георгиевич, доктор физико-математических наук,...»

«Кусова Елена Валерьевна О ГЕОМЕТРИИ СЛАБО КОСИМПЛЕКТИЧЕСКИХ СТРУКТУР 01.01.04 геометрия и топология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Казань 2013 Работа выполнена на кафедре геометрии ФГБОУВПО Московский педагогический государственный университет Научный руководитель : доктор физико-математических наук, профессор кафедры геометрия Московского Педагогического Государственного Университета Кириченко Вадим Федорович...»

«Назарова Елена Игоревна Численное исследование математических моделей оптимального измерения 05.13.18 – математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Челябинск – 2012 Работа выполнена в ФГБОУ ВПО Южно-Уральский государственный университет (НИУ). Научный руководитель д-р физ.-мат. наук, доц. Келлер Алевтина Викторовна. Официальные оппоненты : Кадченко Сергей Иванович,...»

«Засухина Елена Семеновна Быстрое автоматическое дифференцирование в задачах оптимального управления Специальность 01.01.09 - Дискретная математика и математическая кибернетика Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2007 Работа выполнена в Вычислительном центре им. А.А. Дородницына Российской академии наук Научный руководитель : доктор физико-математических наук Зубов Владимир Иванович Официальные доктор...»

«Аристархова Анна Вячеславовна КОНТАКТНО-АВТОДУАЛЬНАЯ ГЕОМЕТРИЯ НЕКОТОРЫХ КЛАССОВ ПОЧТИ КОНТАКТНЫХ МЕТРИЧЕСКИХ МНОГООБРАЗИЙ Специальность 01.01.04 – геометрия и топология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Казань – 2009 Работа выполнена в Московском педагогическом государственном университете на кафедре геометрии математического факультета. Научный руководитель : доктор физико-математических наук, профессор КИРИЧЕНКО ВАДИМ...»

«Умняшкин Сергей Владимирович УДК 004.932 : 004.421 : 519.722 Математические методы и алгоритмы цифровой компрессии изображений с использованием ортогональных преобразований Специальность 05.13.11 - “Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей” Автореферат диссертации на соискание ученой степени доктора физико-математических наук Москва – 2001 2 Работа выполнена в Московском государственном институте электронной техники...»

«ВОЛКОВА ИРИНА БОРИСОВНА МОДЕЛИРОВАНИЕ СЕГРЕГАЦИОННЫХ ПРОЦЕССОВ В ПОВЕРХНОСТНЫХ СЛОЯХ АМОРФНЫХ СПЛАВОВ МЕТАЛЛ-МЕТАЛЛОИД ПРИ ДЕФОРМАЦИОННОМ И НИЗКОТЕМПЕРАТУРНОМ ВОЗДЕЙСТВИЯХ Специальность 01.04.01 – Приборы и методы экспериментальной физики АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Ижевск-2004 2 Работа выполнена в Физико-техническом институте УрО РАН Научный руководитель : доктор технических наук, профессор Баянкин Владимир...»

«Динь Ле Дат РАЗРАБОТКА И РЕАЛИЗАЦИЯ ФОРМАЛЬНЫХ ОНТОЛОГИЙ ПРОСТРАНСТВЕННЫХ ДАННЫХ И СЕРВИСОВ Специальность 05.13.11 математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2008 Работа выполнена на кафедре Системного программирования...»








 
© 2013 www.diss.seluk.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Методички, учебные программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.