Введение
Глава 1. Современные подходы к распознаванию слитной и спонтанной речи 12
1.1 Структура современных систем автоматического распознавания речи 12
1.2 Обработка сигнала и извлечение информационных признаков 14
1.3 Акустическое моделирование
1.3.1 Скрытые марковские модели и модели гауссовых смесей 17
1.3.2 Акустические модели на основе глубоких нейронных сетей 21
1.3.3 Методы адаптации акустических моделей на основе глубоких нейронных сетей 1.4 Языковое моделирование 43
1.5 Декодирование 44
1.6 Анализ эффективной методики обучения системы распознавания английской телефонной спонтанной речи 47
1.7 Распознавание русской спонтанной речи 50
1.7.1 Состояние исследований в области распознавания диктовочной и спонтанной русской речи 51
1.8 Выводы 53
Глава 2. Методы построения информационных признаков и акустических моделей на основе глубоких нейронных сетей 55
2.1 Интерпретация глубокой нейронной сети как каскада нелинейных преобразований признаков 55
2.1.1 Признаки, извлекаемые из нейронной сети с узким горлом 59
2.2 Метод построения информационных признаков, извлекаемых из адаптированной к диктору и акустическим условиям глубокой нейронной сети с узким горлом 62
2.2.1 Эксперименты по оценке эффективности предложенного метода построения признаков в задаче распознавания английской спонтанной речи 67
2.3 Двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей 72
2.3.1 Эксперименты по оценке эффективности предложенного двухэтапного алгоритма инициализации обучения акустических моделей в задаче распознавания английской спонтанной речи 73
2.4 Выводы 76
Глава 3. Построение системы распознавания русской телефонной спонтанной речи 78
3.1 Речевые базы для обучения и настройки системы 79
3.2 Построение языковых моделей
3.2.1 Сбор обучающих данных для языковой модели из открытых источников 82
3.2.2 Построение финальной триграммной языковой модели 82
3.3 Формирование словаря транскрипций 84
3.3.1 Построение транскрипций для списка слов из языковой модели 85
3.3.2 Учет эффектов коартикуляции в словосочетаниях и фонетических особенностей русской спонтанной речи 87
3.4 Построение акустических моделей 89
3.4.1 Апробация методики обучения акустических моделей для английской спонтанной речи из инструмента Kaldi ASR для русского языка 89
3.4.2 Обучение глубоких нейронных сетей, адаптированных при помощи i-векторов 93
3.4.3 Обучение акустических моделей с использованием признаков, извлеченных из адаптированной при помощи i-векторов глубокой нейронной сети с узким горлом 97
3.4.4 Выбор конфигурации акустических признаков 101
3.4.5 Построение финальной акустической модели 106
3.5 Выводы 111
Глава 4. Программные средства системы распознавания русской телефонной спонтанной речи 114
4.1 Структура системы распознавания русской телефонной спонтанной речи 114
4.1.1 Подсистема обучения 115
4.1.2 Подсистема распознавания речи 118
4.2 Оценка эффективности разработанной системы и сравнение с существующими системами слитного распознавания на русском языке 120
4.2.1 Методика тестирования 120
4.2.2 Описание тестовых баз 121
4.2.3 Пример работы построенной системы распознавания 122
4.2.4 Сравнение с другими системами распознавания слитной русской речи 123
4.2.5 Оценка быстродействия разработанной системы 126
4.3 Выводы 128
Заключение 129
Список сокращений и условных обозначений 131
Список литературы


