Тематическая модель с бесконечным словарем
Аннотация
Постановка проблемы: в связи с постоянным ростом Интернета, увеличением количества новостей, сообщений в электронной почте, постов в блогах растет потребность в алгоритмах для автоматического анализа текстовых данных. Одним из перспективных направлений машинного обучения и анализа текстов на естественном языке являются алгоритмы тематического моделирования. Большинство методов тематического моделирования рассматривают данные в статичном виде, с конечным словарем, но на практике необходимы методы, позволяющие работать с пополняемым словарем. Каждый год появляются новые слова, какие-то слова выходят из обихода, поэтому вопрос пополнения словаря особенно актуален для онлайн тематических моделей. Цель: разработка подхода определения тематического вектора нового слова с использованием произведения Адамара тематических векторов документов, где это слово встретилось, который будет альтернативным подходу с использованием распределения Дирихле или процесса Дирихле. Результаты: исследования показали, что сумма векторов тем документов, где встретилось новое слово, дает неверное представление о тематической принадлежности нового слова. При этом для определения тематики нового слова по тематикам документов, где это слово встретилось, эффективнее использовать произведение Адамара. В результате перемножения векторов тем документов получаем тематический вектор нового слова с наибольшими значениями вероятностей у нескольких тематик, значение слабо выраженных тематик либо стремится к нулю, либо обнуляется. Практическая значимость: использование предложенного алгоритма позволяет бесконечно увеличивать словарь онлайн тематической модели, а следовательно, учитывать новые и старые слова.Опубликован
19-12-2016
Как цитировать
Карпович, С. Н. (2016). Тематическая модель с бесконечным словарем. Информационно-управляющие системы, (6), 43-49. https://doi.org/10.15217/issn1684-8853.2016.6.43
Выпуск
Раздел
Моделирование систем и процессов