Введение
1 Схема потокового программирования 13
1.1 Подход к проведению оценки производительности вычислительной системы 13
1.1.1 Оптимизация алгоритма 13
1.1.2 Производительность на уровне процессора 14
1.1.3 Производительность на уровне вычислительного узла 15
1.1.4 Производительность системы в целом 16-
1.2 Схема потокового программирования 16
1.2.1 Реализация для одного конвейеризованного вычислительного узла 16
1.2.2 Реализация для нескольких арифметических узлов 18
1.2.3 Реализация для нескольких вычислительных узлов при наличии разделяемого общего ресурса 19
1.2.4 Реализация для вычислительных узлов с косвенной адресацией памяти ..20
1.3 Выводы 27
2 Методы оценки производительности для задач обработки сигналов 29
2.1 Быстрое преобразование Фурье 29
2.1.1 Дискретное преобразование Фурье 29
2.1.2 Быстрое преобразование Фурье 30
2.1.3 Общая схема вычислений и хранения данных 30
2.1.4 «Бабочка Фурье» на сопроцессоре 32
2.1.5 Реализация БПФ на одном вычислительном узле 33
2.2 Оптимальное распределение процессов по вершинам гиперкуба 43
2.3 Оценки времени транспонирования матриц на СЭВМ-6 45
2.3.1 Общая схема алгоритма 46
2.3.2 База индукции 46
2.3.3 Шаг индукции 49
2.3.4 Основное соотношение 50
2.3.5 Некоторые замечания 50
2.3.6 Численные результаты 51
2.3.7 Оценки для малого количества ВУ 51
2.4 Задача обработки данных радара с синтезированной антенной решеткой (SAR) 52
2.4.1 Введение 52
2.4.2 Модельная задача 53
2.4.3 Реальная задача 56
2.5 Быстрое преобразование Фурье на макетном модуле с четырьмя процессорами ЦПОС-2 58
2.5.1 Быстрое Преобразование Фурье по основанию 4 58
2.5.2 Архитектура макетного модуля с четырьмя процессорами ЦПОС-2 61
2.5.3 Оценка производительности макетного модуля на потоке преобразований Фурье различного размера 66
2.6 Обзор современных методов фильтрации данных 76
2.6.1 Прямое вычисление фильтра 76
2.6.2 Фильтрация в области частот 77
2.6.3 Схема блочного использования FFT при вычислении фильтра 79
2.7 Выводы 83
3 Проектирование расширения обработки сигналов для универсального микропроцессора 85
3.1 Описание усовершенствований 85
3.1.1 Усовершенствование №1 85
3.1.2 Усовершенствование №2 85
3.1.3 Усовершенствование №3 86
3.1.4 Усовершенствование №4 86
3.2 Оценка производительности предлагаемых архитектур 87
3.2.1 Исходная архитектура 87
3.2.2 Усовершенствование №1 88
3.2.3 Усовершенствование №2 89
3.2.4 Усовершенствование №3 90
3.3 Другие альтернативы 91
3.4 Теоретические результаты 92
3.5 Архитектура DSP-расширения 93
3.5.1 Описание DSP команд 93
3.5.2 Режимы работы микропроцессора 95
3.5.3 Кэш 2-го уровня 96
3.5.4 Пиковая производительность микропроцессора 97
3.6 Оценка производительности: данные в памяти 98
3.7 Выводы 99
4 Методика использования программных эмуляторов для оценок производительности и верификации процессоров 100
4.1 Работа с долго выполняющимися программами 102
4.2 Портирование ОС Linux 103
4.3 Подключение виртуальной машины к локальной сети 104
4.4 Потактовая модель 104
4.5 Выводы 105
Заключение 106
Приложение


