Кластеризация данных в распределенных системах мониторинга
Ключевые слова:
интеллектуальный анализ данных, кластеризация, датчики, распределенные источники дан- ных, самоорганизующиеся карты Кохонена, распределенные системы обработки данных, виды распределения, систе- мы мониторингаАннотация
Введение: традиционные способы анализа распределенных источников данных обычно используют централизован-
ные хранилища данных и имеют ряд недостатков, связанных с конфиденциальностью, высокой стоимостью централи-
зованного хранения данных, ограниченной пропускной способностью и высокой нагрузкой на телекоммуникационные
сети. Методики, по которым выполняется децентрализованный анализ, не учитывают вид распределения данных и осо-
бенности выбранного алгоритма. Это снижает производительность и точность анализа или может быть причиной невы-
полнимости его в заданных условиях. Цель: обзор и анализ особенностей работы распределенных систем мониторинга
и алгоритмов интеллектуального анализа данных. Результаты: для проведения кластеризации на основе распределен-
ных источников данных установлены требования к алгоритму в системах распределенного мониторинга: однопроход-
ность, поддержка разных типов входных данных, работа онлайн-режима, адаптация к данным при изменении среды,
масштабирование больших объемов данных, выполнение анализа без предположений о распределении входных данных,
анализ данных на источниках информации без их передачи третьей стороне. Определены два основных способа распре-
деления данных на источниках в гетерогенных системах: вертикальный и горизонтальный. Выполнена классификация
методов в соответствии с их основным принципом разграничения кластеров. Классификация включает основные алго-
ритмы кластеризации, их принцип работы, достоинства и недостатки. Обзор и анализ существующих методов кластери-
зации выявил, что в распределенных системах мониторинга наиболее эффективными являются алгоритмы на основе
нейронных сетей Кохонена. Декомпозирован алгоритм самоорганизующихся карт Кохонена и определены блоки работы
с данными: вычисление нейрона-победителя и настройка весов нейронов. Предложены две стратегии кластеризации
распределенных данных. Практическая значимость: предложенные стратегии позволяют выполнять кластеризацию
в системах с распределенными источниками с учетом характеристик среды без передачи всех данных.