Подход к распознаванию депрессии по речи человека с использованием полуавтоматической разметки данных
Ключевые слова:
анализ речи, речевые технологии, компьютерная паралингвистика, деструктивные явления, предобработка данных, автоматическое распознавание депрессии по речиАннотация
Введение: с момента выпуска в общий доступ одного из самых больших корпусов, содержащих речь людей с депрессией, Extended Distress Analysis Interview Corpus, в сфере автоматического распознавания речи разработаны новые технологии, применение которых дает возможность повысить качество разметки, а вместе с тем и качество распознавания депрессии. Цель: повысить качество автоматического распознавания депрессии по речи людей с использованием корпуса Extended Distress Analysis Interview Corpus за счет объединения автоматического транскрибирования аудиозаписей с получением временных меток для каждого высказывания, а также экспертной проверки полученных данных для исправления ошибок разметки. Результаты: представлен полуавтоматический подход для разметки аудиоданных с использованием модели Faster-Whisper для текстового транскрибирования речевых записей, набора скриптов для предобработки данных и программного инструментария Praat для ручной проверки полученных транскрипций. В ходе экспериментальных исследований использовано несколько различных методов для решения задач классификации и регрессии. Попытка нормализации данных позволила улучшить значения показателей для метода k-ближайших соседей на предобработанных данных, однако не дала никаких изменений и даже немного ухудшила значения показателей на оригинальных данных. Анализ результатов, полученных в ходе экспериментальных исследований, выявил, что в целом, несмотря на понижение средних значений показателей точности, был сокращен разрыв значений показателей для каждого класса за счет повышения качества распознавания депрессии, что свидетельствует о том, что цель работы достигнута. Практическая значимость: использование представленного подхода позволило улучшить как качество разметки, так и качество автоматического распознавания депрессии. Обсуждение: в дальнейшем планируется использовать полученную разметку для проведения экспериментальных исследований при создании метода многомодального распознавания депрессии человека по аудио, видео и текстовым данным.