Когнитивная визуализация классифицирующих правил, извлеченных из данных, на основе модели бинарной решающей матрицы
Ключевые слова:
большие данные, когнитивные технологии, многомерный анализ данных, машинное обучение, решающее правило, бинарная решающая матрица, визуализаторАннотация
Введение: огромные объемы данных генерируются в интернет-пространстве и из внутренней информации организаций. Для получения набора выходных данных с четкой структурой, их разделения на значимые части и построения классифицирующих правил применяются методы машинного обучения. Большая часть индуктивных методов моделирует в многомерном пространстве промежуточные и высокоуровневые абстрактные категории, которые сложно интерпретировать. Цель: разработка модели машинного обучения в виде «белого ящика», объясняющего выбранное решение при помощи обычных продукционных правил, и когнитивных визуализаторов для характеризации классов объектов. Методы: построение бинарной решающей матрицы, предоставляющей информацию о комплексе значений выбранных свойств объектов, которые имплицируют заданные классы. Результаты: бинарная решающая матрица формируется автоматически по результатам кластерного и дискриминантного анализов. Процесс обучения ограничивается выставлением пороговых уровней и единичных элементов матрицы, что обеспечивает возможность семантической интерпретации решающего правила. Процедура распознавания сводится к поэлементной конъюнкции тех строк матрицы, которые определяются атрибутами объекта. Выделенный единичный элемент указывает номер класса. Для интерпретации правила разработан универсальный алгоритм обработки бинарной матрицы, использующий вводимые пользователем значения признаков. Размерность просмотренного пространства определяется кольцами мерности на визуализаторе распознавания. Азимут инициированной ячейки диаграммы, имеющей наибольшую размерность, указывает принадлежность объекта с установленными признаками целевому классу. Для характеризации классов разработаны визуализаторы, демонстрирующие как их отличительные свойства, так и свойства, общие для нескольких классов. Во многих случаях распознавание типа объекта останавливается при существенно меньшей глубине просмотренного пространства признаков, чем при полном переборе. Практическая значимость: предложенные методы когнитивного анализа и визуализации данных выполняют не только классификацию данных, упорядочивание и отбор значимых признаков, но и построение правил, раскрывающих причинноследственные связи между комбинацией факторов и типом принимаемого решения.