Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных
Ключевые слова:
тональность текстовых данных, векторизация текста, сентимент-анализ, компьютерная паралингвистика.Аннотация
Введение: в последние годы анализ тональности, или сентимент-анализ, высказываний пользователей находит практическое применение во многих областях: оценка качества товаров и услуг по отзывам покупателей в Интернете, анализ негативных эмоций в сообщениях, прогноз фондовых рынков, политических ситуаций на основе новостных лент и многих других. В связи с этим разрабатываются разнообразные системы и методы для сентимент-анализа русскоязычных текстовых данных. Цель: выполнение подробного обзора подходов и сравнительного анализа существующих баз данных в области сентимент-анализа текстов на русском языке. Результаты: аналитический обзор подходов к анализу тональности русскоязычных текстовых данных показал, что для сентимент-анализа текстов сейчас имеется множество разнообразных методов предобработки текстовых данных, их векторизации и машинной классификации. Из сравнительного анализа существующих баз данных по данной тематике можно сделать вывод, что автоматический сентимент-анализ русскоязычных текстов развит значительно меньше, чем для других основных мировых языков. Исследование программных систем для анализа текстов на русском языке демонстрирует, что пока русскоязычный анализ тональности показывает относительно низкую точность по сравнению с англоязычным, одной из причин этого может являться сложная структура русского языка. В статье описываются основные нерешенные проблемы анализа тональности русскоязычных текстов. Обсуждение: в дальнейших исследованиях планируется реализовать сентимент-анализ разговорной речи дикторов с использованием аудиоданных, для чего необходимо сначала получить орфографическую транскрипцию речи для каждого диктора.