Введение
1. Предисловие 7
1.1. Биоинформатика как дисциплина 7
1.2. Омики для регуляторной геномики 8
1.3. Технические замечания 11
1.4. Список англоязычных терминов и сокращений 12
2. Введение 13
2.1. Факторы транскрипции и мотивы связывания у высших эукариот 13
2.2. Актуальность темы 19
2.3. Цель и задачи работы 19
2.4. Научная новизна, теоретическое значение и научно-практическая ценность работы 20
2.5. Апробация и публикации по теме работы 21
2.6. Личный вклад автора 22
3. Обзор литературы 24
3.1. Мотивы и структура регуляторных последовательностей 25
3.1.1. Терминологический вопрос 25
3.1.2. Промоторы и энхансеры эукариот
3.1.2.1. Эукариотические промоторы 27
3.1.2.2. Транскрипционная активность энхансеров 29
3.1.3. Грамматика регуляторных областей 30
3.2. Вычислительное представление и практический анализ мотивов 35
3.2.1. Мотив как множество вырожденных подстрок 35
3.2.1.1. Позиционно-весовые матрицы 36
3.2.1.2. Информационное содержание и визуализация мотивов в форме лого-диаграмм 39
3.2.1.3. Переход к расширенным моделям мотивов
3.2.2. Стандартные методы идентификации мотивов 43
3.2.3. Коллекции известных мотивов связывания факторов транскрипции 45
3.2.4. Практический анализ мотивов
3.2.4.1. Статистическая значимость вхождений мотивов 48
3.2.4.2. Мотив как классификатор 52
3.2.4.3. Меры сходства мотивов 56
3.2.4.4. Аннотация генетических вариантов в некодирующих областях 57
3.3. Экспериментальный анализ ДНК-белкового узнавания 60
3.3.1. Догеномные и постгеномные методы анализа ДНК-белковых взаимодействий 3
3.3.2. Анализ полногеномного профиля связывания ДНК факторами транскрипции путем иммунопреципитации хроматина с последующимглубоким секвенированием 66
3.3.2.1. От гибридизации к секвенированию: -chip versus -Seq 67
3.3.2.2. ChIP-Seq эксперимент и точность определения сайтов связывания 68
3.3.2.3. Локализация сайтов связывания в пиках 73
3.3.2.4. Особенности формы пиков 77
3.3.2.5. Эффект гомотипической кластеризации сайтов связывания в пиках 77
3.3.2.6. Систематические ошибки ChIP-Seq 81
3.3.2.7. Идентификация мотивов в ChIP-Seq данных 82
3.3.2.8. Программные инструменты и практический анализ ChIP-Seq данных 86
3.3.2.9. Дальнейшая эволюция ChIP-Seq для факторов транскрипции 90
3.3.3. Сложность интерпретации результатов высокопроизводительных экспериментов 93
3.4. Перспективные приложения мотивов 95
4. Материалы и методы 96
4.1. Идентификация мотивов в больших выборках нуклеотидных последовательностей. Алгоритм ChIPMunk 96
4.1.1. Мотивация разработки алгоритма 96
4.1.2. Ключевые идеи и формализация
4.1.2.1. Оптимальность множественного локального выравнивания последовательностей. Дискретное информационное содержание с учетом расстояния Кульбака-Лейблера 98
4.1.2.2. Общая структура алгоритма 102
4.1.2.3. Оценка самосогласованности мотива для выбора порога отсечения 105
4.1.2.4. Учет позиционных профилей 106
4.1.2.5. Учет формы мотива 108
4.1.2.6. Выбор оптимальной длины мотива
4.1.3. Результаты базового тестирования 109
4.1.4. Практическое использование и ограничения применимости 113
4.2. Построение расширенных моделей мотивов с учетом корреляций соседних позиций. Алгоритм diChIPMunk 114
4.2.1. Переход к динуклеотидному алфавиту и построение динуклеотидных позиционно-весовых матриц 115
4.2.2. Оптимальность выравнивания с учетом частот динуклеотидов и определение длины мотива 116
4.2.3. Оценка результатов diChIPMunk с помощью операционных характеристик приемника 117
4.2.4. Оценка качества динуклеотидных мотивов на основе локализации предсказанных сайтов связывания 118
4.3. Естественная мера сходства мотивов 121
4.3.1. Сходство мотивов по Жаккару 122
4.3.2. Формализация позиционно-весовых матриц, P-значений мотивов и строгое определение меры сходства
4.3.2.1. Расширение и обратно-комплементарное преобразование ПВМ 124
4.3.2.2. Выравнивание позиционно-весовых матриц 124
4.3.2.3. Итоговое определение меры сходства и расстояния между весовыми матрицами. 125
4.3.3. Практическое тестирование 127
4.4. Сопутствующие методы анализа мотивов 130
4.4.1. Аннотация регуляторных вариантов в сайтах связывания факторов транскрипции. Алгоритм и программа PERFECTOS-APE 130
4.4.2. Поиск вхождений мотивов в нуклеотидных последовательностях. Алгоритм и программа SPRy-SARUS 132
4.4.3. Сравнение качества распознавания сайтов связывания с помощью ROC-кривой. Статистическая оценка ожидаемой доли ложноположительных предсказаний 132
4.5. Техническая реализация и доступность методов 134
5. Результаты и обсуждение 135
5.1. Коллекция HOCOMOCO: мотивы сайтов связывания факторов транскрипции человека и мыши 135
5.1.1. Построение базовой коллекции мотивов путем интеграции данных различных источников 135
5.1.1.1. Общие соображения о построении коллекции и идентификации мотивов 136
5.1.1.2. Обзор источников данных 137
5.1.1.3. Вычислительная идентификация мотивов 140
5.1.1.4. Экспертное курирование результатов 140
5.1.1.5. Обзор первого релиза коллекции 142
5.1.2. Расширение коллекции путем систематического анализа данных ChIP Seq 145
5.1.2.1. Схема построения обновленной коллекции 146
5.1.2.2. Коллекции мотивов, использованные в сравнительном тестировании 149
5.1.2.3. Организация сравнительного тестирования 150
5.1.2.4. Сборка итоговой коллекции 151
5.1.2.5. Обзор итоговой коллекции 155
5.1.2.6. Обсуждение результатов построения коллекции 158
5.1.3. Заключение по разделу 161
5.2. Практический анализ мотивов в избранных регуляторных системах 163
5.2.1. Мотивы и композитные элементы сайтов связывания факторов плюрипотентности OCT4/SOX2/NANOG 163
5.2.1.1. Обзор доступных ChIP-Seq данных 164
5.2.1.2. Схема вычислительного анализа 164
5.2.1.3. Обзор известных мотивов связывания 166
5.2.1.4. Результаты идентификации мотивов de novo и сравнительного тестирования 167
5.2.1.5. Тройственный композитный элемент OCT4-SOX2/NANOG 168
5.2.2. Использование независимых экспериментальных данных для оценки
точности представления мотивов сайтов связывания 172
5.2.2.1. Фактор транскрипции FoxA2 и использованные ChIP-Seq данные 172
5.2.2.2. Модели сайтов связывания 173
5.2.2.3. Тестирование и результаты 1 5.2.3. Кластеризация сайтов связывания фактора транскрипции Spi1 и регуляция экспрессии генов при эритролейкемии 177
5.2.4. Взаимосвязь транскрипции и трансляции мРНК-мишеней сигнального каскада mTOR 1 5.2.4.1. Терминальный олигопиримидиновый мотив и регуляция трансляции в ответе на сигнальный каскад mTOR 180
5.2.4.2. ТОП-мотив, идентифицированный de novo, хорошо согласуется с известным 181
5.2.4.3. ОП/ТОП-мотив обладает выраженными позиционными предпочтениями 182
5.2.4.4. Методические замечания 188
5.2.4.5. Обсуждение и заключение по разделу 189
5.2.5. Давление отбора на соматические мутации в сайтах связывания
факторов транскрипции в геномах раковых клеток 191
5.2.5.1. Оценка давления отбора на мутации в сайтах связывания факторов транскрипции 192
5.2.5.2. Давление отбора на мутации в регуляторных районах ограничено и требует больших выборок для обнаружения 194
5.2.5.3. Мутации, изменяющие аффинность сайтов связывания, находятся под давлением отбора 194
5.2.5.4. Локализация соматических мутаций связана с информационным содержанием мотива 195
5.2.5.5. Давление отбора на мутации в мотивах сильнее выражено в районах, доступных для эндонуклеазы 197
5.2.5.6. Обсуждение представленных результатов 198
5.2.5.7. Методические замечания 199
5.2.5.8. Заключение по разделу 201
5.2.6. Идентификация мотивов в промоторах проекта FANTOM5 202
5.2.6.1. De novo идентификация мотивов связывания 203
5.2.6.2. Оценка новизны мотивов 204
5.2.6.3. Выявление принципиально новых мотивов 205
5.2.7. Колокализация сайтов связывания факторов транскрипции и CpG светофоров 208
5.2.7.1. Метилирование ДНК и активность промоторов млекопитающих 208
5.2.7.2. Определение CpG-светофоров 210
5.2.7.3. Сайты связывания факторов транскрипции избегают CpG-светофоров 2 6. Заключение 214
7. Выводы 215
8. Публикации и доклады по теме диссертации
8.1. Статьи в рецензируемых международных журналах 217
8.2. Статьи в рецензируемых российских журналах 219
8.3. Приглашенные главы в книгах и сериях обзоров 219
8.4. Статьи в рецензируемых сборниках 219
8.5. Авторские доклады на конференциях
8.5.1. Пленарные и приглашенные доклады 220
8.5.2. Устные доклады 220
8.5.3. Стендовые доклады 221
9. Список литературы 223


