Исследование обобщенного подхода к решению задач анализа настроений коротких текстовых сообщений в задачах обработки естественного языка
Ключевые слова:
обработка естественного языка, машинное обучение, глубокое обучение, векторизация, моделирование, предварительная обработка, автоматическое машинное обучение, перенос обученияАннотация
Введение: определение тональности текста — сложная проблема, решение которой существенно зависит от контекста, об-
ласти исследования и объема текстовых данных. Проведенный анализ публикаций показывает, что авторы в своих работах не
используют полный спектр возможных преобразований над данными и их комбинаций. Используется только некоторая часть
преобразований, что не позволяет в полной мере разрабатывать модели высокого качества классификации. Цель: разработка и
исследование обобщенного подхода к построению модели, который заключается в последовательном прохождении этапов раз-
ведочного анализа, получения базового решения, векторизации, предобработки, настройки гиперпараметров и моделирования.
Результаты: сравнительные эксперименты, проведенные c применением обобщенного подхода для классических алгоритмов ма-
шинного обучения и глубокого обучения к решению задачи анализа настроений коротких текстовых сообщений в области обра-
ботки естественного языка, показали динамику роста качества классификации от этапа к этапу. Для классических алгоритмов
такой рост качества был незначительным, но для глубокого обучения прирост качества на каждом этапе в среднем составил 8 %.
Проведение дополнительных исследований показало, что использование автоматического машинного обучения, в котором при-
меняются классические алгоритмы классификации, сопоставимо по качеству с ручной разработкой модели, однако занимает на-
много больше времени. Использование переноса обучения оказывает небольшой, но положительный эффект на качество класси-
фикации. Практическая значимость: предложенный последовательный подход позволяет существенно повысить качество раз-
рабатываемых моделей в задачах обработки естественного языка.