Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации
Ключевые слова:
машинное обучение, сегментирование множества данных, временные последовательности, изменяющиеся свойства данныхАннотация
Введение: достижение заданных качественных показателей в решениях, связанных с машинным обучением, зависит не только от эффективности алгоритмов, но и от свойств данных. Одним из направлений развития моделей классификации и регрессии является уточнение локальных свойств информации. Цель: повышение показателей качества при решении задач классификации и регрессии на основе адаптивного выбора различных моделей машинного обучения на отдельных локальных сегментах выборки данных. Результаты: предложен метод, использующий комбинирование различных моделей и алгоритмов машинного обучения на отдельных подвыборках в задачах регрессии и классификации. Метод основывается на вычислении качественных показателей и выборе лучших моделей на локальных сегментах выборки. Выявление изменений данных и временных последовательностей дает возможность сформировать выборки, где данные имеют различные свойства (например, дисперсия, выборочная доля, размах данных и т.д.). Рассмотрено сегментирование на основе алгоритма поиска точек смены тренда временного ряда и аналитической информации. На примере реальных данных датасета приведены экспериментальные значения функции потерь для предлагаемого метода у различных классификаторов на отдельных сегментах и всей выборке. Практическая значимость: результаты могут быть использованы в задачах классификации и регрессии при разработке моделей и методов машинного обучения. Предложенный метод позволяет повысить показатели качества классификации и регрессии за счет назначения моделей, имеющих лучшие показатели на отдельных сегментах.