Сегментирование множества данных с учетом информации воздействующих факторов
Ключевые слова:
машинное обучение, сегментирование множества данных, воздействующие факторы, изменяющиеся условияАннотация
Введение: применение методов машинного обучения предполагает сбор и обработку в автономном режиме значений, поступающих от регистрирующих элементов. Большинство моделей обучается на исторических данных, а затем применяется в задачах прогнозирования, классификации, поиска влияющих факторов и воздействий, анализа состояния. В течение времени могут меняться диапазоны регистрируемых значений, что сказывается на качестве результатов классификационных алгоритмов и приводит к тому, что модели должны обучаться постоянно либо перенастраиваться с учетом поступающих значений параметров. Цель: разработка методики, повышающей показатели качества алгоритмов машинного обучения в условиях динамически изменяющихся и нестационарных сред, где распределение данных может изменяться с течением времени. Методы: разбиение (сегментирование) множества данных на основе информации о факторах, влияющих на диапазоны значений целевых переменных. Результаты: предложена методика сегментирования множества данных, основанная на учете факторов, которые влияют на изменение диапазонов значений целевых переменных. Выявление воздействий дает возможность сформировать выборки, исходя из текущих и предполагаемых ситуаций. На примере датасета PowerSupply реализовано разбиение множества данных на подмножества, учитывающее влияние факторов на диапазоны значений. Приведена формализация внешних воздействий на основе продукционных правил. Показана обработка факторов с помощью функции принадлежности (индикаторной функции). С ее использованием произведено разбиение выборки данных на конечное число непересекающихся измеримых подмножеств. Приведены экспериментальные значения функции потерь MSE нейросети для предлагаемой методики на выбранном датасете. Показаны результаты качественных показателей классификации (Accuracy, AUC, F-мера) для различных классификаторов. Практическая значимость: результаты могут быть использованы при разработке классификационных моделей методов машинного обучения. Предложенная методика позволяет повысить показатели качества классификации в изменяющихся условиях функционирования.