Купить диссертацию Нейросетевой метод управления на основе подкрепляемого обучения

Оглавление диссертации

Введение
CLASS 1 Метод подкрепляемого обучения 1 CLASS 1
1.1 Постановка задачи подкрепляемого обучения 12
1.2 Суммарная величина подкрепления 14
1.3 Стратегия управления 15
1.4 Исследование среды и использование знаний 16
1.5 Свойства сигналов состояния внешней среды и подкрепления 17
1.6 Функции оценки 18
1.7 Оптимальная стратегия управления 20
1.8 Оптимальные функции оценки 21
1.9 Алгоритмы обучения 23
1.9.1 Алгоритм временных разностей 23
1.9.2 Алгоритм Q-обучения 24
1.9.3 Алгоритм SARSА 25
1.9.4 Алгоритм TD(X) 26
1.9.5 Анализ алгоритмов обучения 27
Основные результаты и выводы по главе 1 28
2 Способ построения RL-Сау 30
2.1 Структурная схема системы экстремального управления 30
2.2 Обобщенная структурная схема RL-САУ 31
2.2.1 Импульсный элемент 32
2.2.2 Квантователь 33
2.2.3 Анализирующее устройство 34
2.2.4 Блок «Агент» 35
2.2.5 Экстраполятор 39
2.3 Программное средство «Исследование RL-САУ» 40
2.3.1 Пользовательский интерфейс 41
2.3.2 Модуль «Математическая модель объекта управления» 43
2.3.3 Модуль «Задающее устройство» 46
2.3.4 Модуль «Управляющее устройство» 47
2.3.5 Модуль визуализации и протоколирования 48
2.4 Экспериментальные исследования RL-САУ 50
2.4.1 Исследование системы управления объектом первого порядка «Апериодическое звено» 51
2.4.2 Исследование системы управления объектом второго порядка «Колебательное звено» 61
2.4.3 Исследование системы управления объектом «Маятник» 71
2.5 Результаты исследований RL-САУ 75
Основные результаты и выводы по главе 2 76
3 Неиросетевои метод управления на основе подкрепляемого обучения 77
3.1 Классификация ИНС 77
3.1.1 Однослойный перцептрон 78
3.1.2 Многослойный перцептрон 80
3.1.2.1 Алгоритм обратного распространения ошибки 81
3.1.3 Радиально-базисная нейронная сеть 84
3.1.3.1 Градиентный алгоритм обучения радиальыо-базисной нейронной сети 85
3.1.3.2 Модифицированный градиентный алгоритм обучения радиально-базисной нейронной сети 97
3.2 Обобщенная структурная схема нейросетевой RL-САУ 109
3.2.1 Блок нормализации J10
3.2.2 Формирование сигнала выходного воздействия 110 -
3.2.3 Блок «Агент» 112
3.3 Программное средство «Исследование NRL-САУ» 115
3.4 Экспериментальные исследования NRL-САУ 118
3.4.1 Исследование системы управления объектом второго порядка 118
3.4.2 Исследование системы управления объектом «Акробот» г. 123
3.5 Результаты исследования нейросетевой RL-САУ 125
Основные результаты и выводы по главе 3 127
Заключение 129
Список использованных источников 131
Приложение а. Реализация модифицированного градиентного алгоритма обучения рбнс на языке object pascal 141
Приложение б. Акт внедрения результатов диссертационной работы