СОДЕРЖАНИЕ
СОДЕРЖАНИЕ ..................................................................................................... 2
ВВЕДЕНИЕ ........................................................................................................... 5
РАЗДЕЛ 1. Обзор существующих решений ................................................... 11
1.1 Определение и ключевые концепции обучения с подкреплением ... 11
1.2 История развития и ключевые этапы в области ................................ 12
1.3 Основные компоненты системы обучения с подкреплением ........... 13
1.4 Марковские процессы принятия решений ......................................... 15
1.5 Уравнение Беллмана ............................................................................. 16
1.6 Классификация и обзор алгоритмов обучения с подкреплением .... 18
1.6.1 Модельные и безмодельные алгоритмы ..................................... 18
1.6.2 Основанные на значении и основанные на стратегии алгоритмы
19
1.6.3 Q-learning ....................................................................................... 19
1.6.4 Deep Q-Networks (DQN) ............................................................... 20
1.6.5 Proximal Policy Optimization (PPO) ............................................. 20
1.6.6 Deep Deterministic Policy Gradient (DDPG) ................................ 21
1.6.7 Policy Gradients ............................................................................. 21
1.6.8 Actor-Critic ..................................................................................... 22
1.6.9 Soft Actor-Critic (SAC) .................................................................. 23
1.6.10 Randomized Ensembled Double Q-Learning (REDQ) .................. 23
1.6.11 Выводы на основе представленного обзора существующих
методов 24
1.7 Применение обучения с подкреплением в робототехнике ............... 27
1.7.1 Специфические сложности и требования .................................. 29
3
1.8 Разработка сред и формулировка функции наград в обучении с
подкреплением для решения реальных задач ........................................................ 30
1.9 Выводы и результаты первого раздела ............................................... 32
РАЗДЕЛ 2. Исследование существующих методов обучения с
подкреплением 34
2.1 Введение в экспериментальную конфигурацию ................................ 34
2.1.1 Программное обеспечение и языки программирования ........... 34
2.1.2 Библиотека PyTorch ...................................................................... 35
2.1.3 Библиотека TorchRL ..................................................................... 35
2.1.4 Интеграция с Gymnasium ............................................................. 36
2.1.5 Интеграция с ML-Agents .............................................................. 36
2.1.6 Интеграция с ROS ......................................................................... 37
2.2 Сравнение реализаций метода DQN в среде симулятора Gazebo .... 39
2.2.1 Методология экспериментального исследования ...................... 39
2.2.2 Результаты экспериментального исследования ......................... 42
2.2.3 Выводы по результатам экспериментального исследования .... 45
2.3 Сравнение эффективности современных алгоритмов обучения с
подкреплением в задаче управления движением агентов в трехмерном
пространстве ............................................................................................................. 45
2.3.1 Методология экспериментального исследования ...................... 46
2.3.2 Результаты экспериментального исследования ......................... 48
2.3.3 Выводы по результатам экспериментальных исследований .... 52
2.4 Влияние состава набора окружающих наблюдений на процесс
приобретения агентом навыков движения в трехмерном пространстве ............. 53
2.4.1 Методология экспериментального исследования ...................... 54
2.4.2 Результаты экспериментального исследования ......................... 56
2.4.3 Выводы по результатам экспериментальных исследований .... 58
2.5 Выводы и результаты второго раздела ................................................ 59
4
РАЗДЕЛ 3. Модель интеграции алгоритмов обучения с подкреплением с
кодировщиком трансформера ...................................................................................... 62
3.1 Архитектура трансформер ................................................................... 63
3.2 Описание предложенной модели и разработанного алгоритма ....... 64
3.3 Методология экспериментального исследования .............................. 68
3.4 Результаты экспериментального исследования ................................. 69
3.5 Выводы и результаты третьего раздела .............................................. 73
РАЗДЕЛ 4. Метод иерархического ансамблирования алгоритмов обучения
с подкреплением 74
4.1 Описание предложенного метода ........................................................ 75
4.2 Реализация предложенного метода ..................................................... 76
4.3 Методология экспериментального исследования .............................. 79
4.4 Результаты экспериментального исследования ................................. 80
4.5 Выводы и результаты четвертого раздела .......................................... 85
ЗАКЛЮЧЕНИЕ ................................................................................................... 86
СПИСОК ЛИТЕРАТУРЫ ................................................................................... 88


