Исследование методов построения моделей кодер-декодер для распознавания русской речи
Ключевые слова:
распознавание речи, нейронные сети, интегральные модели, машинное обучение, механизм внимания, кодер-декодер-моделиАннотация
Введение: классические системы автоматического распознавания речи традиционно строятся с помощью акустиче-
ской модели на основе скрытых моделей Маркова и статистической языковой модели. Такие системы демонстрируют
довольно высокую точность распознавания, но состоят из нескольких независимых сложных частей, что при постро-
ении моделей может вызывать проблемы. В последнее время распространение получил интегральный метод распоз-
навания с использованием глубоких искусственных нейронных сетей. Этот подход позволяет легко реализовывать мо-
дели, применяя только одну нейронную сеть. Интегральные модели часто демонстрируют лучшую производительность
с точки зрения скорости и точности распознавания речи. Цель: реализация интегральных моделей для распознавания
слитной русской речи, их настройка и сравнение с гибридными базовыми моделями с точки зрения точности распозна-
вания и вычислительных характеристик, таких как скорость обучения и декодирования. Методы: создание кодер-деко-
дер-модели распознавания речи с использованием механизма внимания, применение техник стабилизации и регуляри-
зации нейронных сетей, аугментация данных для обучения, установка частей слов в качестве выхода нейронной сети.
Результаты: получена кодер-декодер-модель на основе механизма внимания для распознавания слитной русской речи
без выделения признаков и использования языковой модели. В качестве элементов выходной последовательности бы-
ли установлены части слов обучающей выборки. Полученная модель не смогла превзойти базовые гибридные модели,
однако превзошла базовые интегральные модели как по точности распознавания, так и по скорости декодирования и
обучения. Ошибка распознавания слов в речи равна 24,17 %, а скорость декодирования — 0,3 реального времени, что бы-
стрее базовой интегральной и гибридной моделей на 6 и 46 % соответственно. Также показано, что интегральные модели
могут работать и без языковых моделей для русского языка, демонстрируя при этом скорость декодирования выше,
чем у гибридных моделей. Полученная модель была обучена на данных без выделения каких-либо признаков. В резуль-
тате экспериментов обнаружено, что для русской речи гибридный тип механизма внимания дает наилучший результат
по сравнению с механизмами внимания по расположению и по содержанию. Практическая значимость: полученным
моделям требуется меньший объем памяти и меньшее время декодирования речи по сравнению с традиционными ги-
бридными моделями, что может позволить использовать их на мобильных устройствах локально, без вычислений на
удаленных серверах.