Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров

Кошкин Дмитрий Евгеньевич. Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров: диссертация ... кандидата технических наук: 05.13.15 / Кошкин Дмитрий Евгеньевич;[Место защиты: Московский государственный институт радиотехники, электроники и автоматики (технический университет)].- Москва, 2014.- 145 с.
Автор
Кошкин Дмитрий Евгеньевич
Год
2014
  • 99 000 UZS

Оглавление диссертации
Введение
Глава 1 Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов . 14
1.1 Теории, используемые при анализе текстового контента. 14
1.2 Методы классификации и алгоритмы кластерного анализа текстового контента 22
1.3 Оценка алгоритмов кластеризации по критериям вычислительной сложности 31
1.4 Аппаратные и программные платформы развертывания вычислительных кластеров . 35
1.4.1 Технологии сетевого объединения вычислительных узлов 38
1.4.2 Программные платформы развертывания вычислительных кластеров. 41
1.4.3 Гибридные кластеры с графическими процессорами (GPU) 44
1.5 Заключение. Постановка задачи. 46
Глава 2 Развитие существующих методов и алгоритмов специальной обработки текстового контента. Придание вычислительным кластерам свойств расширяемости, масштабируемости и интероперабельности . 48
2.1 Развитие многопоточности для алгоритмов кластеризации на примере алгоритма Нечетких C-средних. 48
2.1.1 Метод использования энтропийной меры оценки алгоритма Нечетких C-средних для контроля процесса кластеризации и повышения ее качества. 55
2.2 Метод параллельной обработки минимальных синтаксических структур с использованием базовых характеристик объектно-ориентированных языков высокого уровня . 56
2.3 Разработка вычислительного кластера со свойствами расширяемости, масштабируемости и интероперабельности. 63
2.3.1 Допущения и ограничения в выборе аппаратной платформы для реализации вычислительного кластера. 63
2.3.2 Допущения и ограничения программной платформы для реализации вычислительного кластера. 66
2.3.3 Методика использования особенностей стандартов для повышения производительности сетевых соединений вычислительных кластеров на основе протокола Ethernet. 78
2.4 Заключение. 84
Глава 3 Развертывание вычислительного кластера на примере кластера в МГТУ МИРЭА. Практическая реализация методов и алгоритмов многопоточной обработки текстового контента на высокопроизводительных вычислительных кластерах . 85
3.1 Программная платформа для развертывания кластера MuninnHPC на основе доработанной кластерной платформы PelicanHPC 85
3.2 Реализация алгоритма кластеризации с использованием многопоточности и графических процессоров (GPU Fuzzy C-Means) на языке Python 91
3.2.1 Описание дополнительных модулей и способов их использования. Экспериментальная верификация. 91
3.3 Апробация созданных кластеров в условиях конкуренции в проекте [email protected]
Глава 4 Практические исследования многопоточной кластеризации текстового контента на естественном языке . 101
4.1 Сравнение вычислительной скорости центрального и графического процессоров 101
4.2 Кластеризация тестовой подборки художественных текстов 104
4.2.1 Результаты экспериментов предобработки текстов с модулем mystem 106
4.2.2 Предобработка текстов с модулем PyMorphy2 110
Заключение. 118
Библиография. 123
Приложения 134

Рекомендуем вам товары

99 000 UZS
Автор
Федосин Михаил Евгеньевич
Количество страниц
Год
2014
99 000 UZS
Автор
Душкин, Дмитрий Николаевич
Количество страниц
Год
2013
99 000 UZS
Автор
Е Мьинт Найнг
Количество страниц
Год
2013
99 000 UZS
Автор
Емельянов, Дмитрий Михайлович
Количество страниц
Год
2013
Модули для Opencart 2, Опенкарт 3