Введение
Глава 1 Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов . 14
1.1 Теории, используемые при анализе текстового контента. 14
1.2 Методы классификации и алгоритмы кластерного анализа текстового контента 22
1.3 Оценка алгоритмов кластеризации по критериям вычислительной сложности 31
1.4 Аппаратные и программные платформы развертывания вычислительных кластеров . 35
1.4.1 Технологии сетевого объединения вычислительных узлов 38
1.4.2 Программные платформы развертывания вычислительных кластеров. 41
1.4.3 Гибридные кластеры с графическими процессорами (GPU) 44
1.5 Заключение. Постановка задачи. 46
Глава 2 Развитие существующих методов и алгоритмов специальной обработки текстового контента. Придание вычислительным кластерам свойств расширяемости, масштабируемости и интероперабельности . 48
2.1 Развитие многопоточности для алгоритмов кластеризации на примере алгоритма Нечетких C-средних. 48
2.1.1 Метод использования энтропийной меры оценки алгоритма Нечетких C-средних для контроля процесса кластеризации и повышения ее качества. 55
2.2 Метод параллельной обработки минимальных синтаксических структур с использованием базовых характеристик объектно-ориентированных языков высокого уровня . 56
2.3 Разработка вычислительного кластера со свойствами расширяемости, масштабируемости и интероперабельности. 63
2.3.1 Допущения и ограничения в выборе аппаратной платформы для реализации вычислительного кластера. 63
2.3.2 Допущения и ограничения программной платформы для реализации вычислительного кластера. 66
2.3.3 Методика использования особенностей стандартов для повышения производительности сетевых соединений вычислительных кластеров на основе протокола Ethernet. 78
2.4 Заключение. 84
Глава 3 Развертывание вычислительного кластера на примере кластера в МГТУ МИРЭА. Практическая реализация методов и алгоритмов многопоточной обработки текстового контента на высокопроизводительных вычислительных кластерах . 85
3.1 Программная платформа для развертывания кластера MuninnHPC на основе доработанной кластерной платформы PelicanHPC 85
3.2 Реализация алгоритма кластеризации с использованием многопоточности и графических процессоров (GPU Fuzzy C-Means) на языке Python 91
3.2.1 Описание дополнительных модулей и способов их использования. Экспериментальная верификация. 91
3.3 Апробация созданных кластеров в условиях конкуренции в проекте [email protected]
Глава 4 Практические исследования многопоточной кластеризации текстового контента на естественном языке . 101
4.1 Сравнение вычислительной скорости центрального и графического процессоров 101
4.2 Кластеризация тестовой подборки художественных текстов 104
4.2.1 Результаты экспериментов предобработки текстов с модулем mystem 106
4.2.2 Предобработка текстов с модулем PyMorphy2 110
Заключение. 118
Библиография. 123
Приложения 134


