Введение
1 Общая проблема анализа и сегментации речевых сигналов 13
1.1 Проблематика задачи автоматической сегментации речевых сигналов 13
1.1.1 Речевые технологии: актуальность, уровень развития 13
1.1.2 Применение сегментации речевых сигналов в речевых приложениях15
1.1.3 Произнесение и восприятие речи человеком. Фонетическое строение сигнала русской речи 18
1.1.4 Параметризация сегментов речевого сигнала 23
1.2 Анализ основных методов решения задачи сегментации речевого сигнала
1.2.1 Спектральный анализ речевого сигнала 26
1.2.2 Кепстральный анализ речевого сигнала 30
1.2.3 Применение вейвлет-преобразования в обработке речевых сигналов 34
1.2.4 Корреляционный анализ речевого сигнала 37
1.3 Базовые задачи сегментации речевых сигналов 39
1.3.1 Определение границ речевой активности 40
1.3.2 Выделение основных типов речевой активности 44
1.3.3 Выделение периодов основного тона 45
1.4 Основные выводы по разделу 48
2 Исследование сигнальных особенностей звуков русской речи 49
2.1 Фонетический алфавит: звуки русской речи и их группы 49
2.2 Основные типы фрагментов речевой активности 51
2.3 Вычисление и анализ ряда сигнальных параметров реализаций фонем русского языка 55 2.3.1 Длительность звука 56
2.3.2 Средняя мощность звука, нормированная сумма модулей отсчетов, энергия 59
2.3.3 Частота переходов через нуль 61
2.3.4 Мел-частотные кепстральные коэффициенты (MFCC) 62
2.3.5 Количество переколебаний на одном периоде основного тона
2.4 Разработка таксономии звуков русской речи с точки зрения задачи сегментации 67
2.5 Исследование особенностей основных классов звуков русской речи
2.5.1 Вокализованные гласные 71
2.5.2 Вокализованные согласные 72
2.5.3 Невокализованные взрывные 73
2.5.4 Невокализованные шумные 74
2.6 Основные выводы по разделу 75
3 Разработка алгоритмов сегментации речевых сигналов и смежных алгоритмов 77
3.1 Системный подход к сегментации 77
3.1.1 3 базовых уровня сегментации 77
3.1.2 Структура обобщенного алгоритма сегментации 78
3.1.3 Метод сравнения эффективности работы однотипных алгоритмов сегментации 80
3.2 Использование огибающей сигнала в алгоритмах сегментации 85
3.2.1 Алгоритм выделения огибающей речевого сигнала 85
3.2.2 Применение огибающей в выявлении переходных участков фонограммы 90
3.3 Повышение результативности использования MFCC-коэффициентов 92
3.3.1 Слуховая маскировка и гармоники ОТ 93
3.3.2 Экспериментальное исследование 95
3.4 Сегментация первого уровня – определение границ речевой активности 99
3.4.1 Сложности реализации 99
3.4.2 Повышение эффективности энергетического VAD-алгоритма 101
3.4.3 Сравнение эффективности разработанных VAD-алгоритмов 107
3.4.4 Ограничение остаточных колебаний вокализованных звуков перед паузой и смычкой 113
3.5 Сегментация второго уровня: выделение типовых фрагментов речи 115
3.5.1 Принципы обработки 115
3.5.2 Алгоритм сегментации «шумный/нешумный» 116
3.5.3 Алгоритм сегментации «вокализованный/невокализованный» 117
3.6 Третий уровень сегментации: сегментация на периоды основного тона 121
3.6.1 Реализация корреляционного алгоритма ОТ-сегментации 121
3.6.2 Разработка алгоритма ОТ-сегментации во временной области 123
3.6.3 Анализ трендов и разладок для определения границ вокализованных звуков
3.7 Многопараметрические алгоритмы многоуровневой временной сегментации речевых сигналов 132
3.8 Основные выводы по разделу 137
4 Приложения разработанных алгоритмов многоуровневой временной сегментации РС 140
4.1 Функциональные алгоритмы обработки РС 140
4.2 Сжатие речевых сигналов 142
4.3 Алгоритмы командного управления (малый алфавит) 142
4.4 Идентификация и верификация диктора 144
4.5 Конкатенативный синтез речи 149
4.6 Шумоподавление 149
4.7 Модификация произнесения речи
4.7.1 Начальные сведения о модификации темпа речи 150
4.7.2 Описание алгоритма модификации темпа произнесения речи 151
4.7.3 Изменение темпа произнесения для пауз и различных типов фонем 154
4.7.4 Анализ эффективности алгоритма модификации темпа речи 157
4.8 Основные выводы по разделу 160
Заключение 162
Список сокращений и условных обозначений 164
Список литературы 165


