Метод фильтрации признаков по критериям стабильности и значимости
Ключевые слова:
Аннотация
Введение: анализ сетевого трафика интернета вещей осложнен высокой размерностью, избыточностью и нестабильностью признаков. Наблюдается сильная корреляция, мультиколлинеарность и шум, что снижает качество кластеризации и затрудняет интерпретацию. Кроме того, легитимный и аномальный трафик часто перекрываются, что осложняет формализацию границ между классами. В этой связи требуется метод отбора признаков, обеспечивающий устойчивость, компактность и семантическую интерпретируемость. Цель: разработать и экспериментально оценить новый метод для построения устойчивого и интерпретируемого признакового пространства в задачах кластеризации сетевого трафика – Progressive Feature Filtering with Stability and Significance (PFF-SS, PF2S). Методы: описан пошаговый алгоритм PF2S, сочетающий анализ линейных (корреляция, VIF) и нелинейных (взаимная информация) зависимостей с оценкой стабильности и информативности. На каждом этапе исключаются избыточные, слабо значимые или нестабильные признаки. Результаты: применение PF2S к датасету сетевого трафика интернета вещей позволило сократить число признаков с более чем 300 до 17, сохранив высокую информативность. Сравнение с пространствами, редуцированными методом главных компонент и методом рекурсивного исключения признаков показало, что PF2S обеспечивает более высокие метрики стабильности, интерпретируемости и качестве кластеризации. Метод не преобразует признаки, как метод главных компонент, а сохраняет их исходную семантику. По сравнению с методом рекурсивного исключения признаков, PF2S обеспечил отсутствие мультиколлинеарности, более низкую сложность модели и на 17,6 % более высокий силуэтный коэффициент. Кластеры, построенные на основе PF2S-пространства, оказались устойчивыми (высокий скорректированный индекс Рэнда) и семантически интерпретируемыми. Практическая значимость: PF2S формирует компактное и устойчивое признаковое пространство, пригодное для систем обнаружения аномалий в сетевом трафике интернета вещей. Обсуждение: перспективным направлением является адаптация PF2S для потоковой обработки данных и интеграция с сигнатурными методами выявления аномалий и онтологиями сетевого трафика.