Исследование методов построения моделей кодер-декодер для распознавания русской речи

Никита Михайлович Марковников; Ирина Сергеевна Кипяткова

doi:10.31799/1684-8853-2019-4-45-53

Марковников Никита Михайлович Санкт-Петербургский институт информатики и автоматизации РАН http://orcid.org/0000-0002-2352-4195
Кипяткова Ирина Сергеевна Санкт-Петербургский институт информатики и автоматизации РАН http://orcid.org/0000-0002-1264-4458

DOI:

https://doi.org/10.31799/1684-8853-2019-4-45-53

Ключевые слова:

распознавание речи, нейронные сети, интегральные модели, машинное обучение, механизм внимания, кодер-декодер-модели

Аннотация

Введение: классические системы автоматического распознавания речи традиционно строятся с помощью акустиче-
ской модели на основе скрытых моделей Маркова и статистической языковой модели. Такие системы демонстрируют
довольно высокую точность распознавания, но состоят из нескольких независимых сложных частей, что при постро-
ении моделей может вызывать проблемы. В последнее время распространение получил интегральный метод распоз-
навания с использованием глубоких искусственных нейронных сетей. Этот подход позволяет легко реализовывать мо-
дели, применяя только одну нейронную сеть. Интегральные модели часто демонстрируют лучшую производительность
с точки зрения скорости и точности распознавания речи. Цель: реализация интегральных моделей для распознавания
слитной русской речи, их настройка и сравнение с гибридными базовыми моделями с точки зрения точности распозна-
вания и вычислительных характеристик, таких как скорость обучения и декодирования. Методы: создание кодер-деко-
дер-модели распознавания речи с использованием механизма внимания, применение техник стабилизации и регуляри-
зации нейронных сетей, аугментация данных для обучения, установка частей слов в качестве выхода нейронной сети.
Результаты: получена кодер-декодер-модель на основе механизма внимания для распознавания слитной русской речи
без выделения признаков и использования языковой модели. В качестве элементов выходной последовательности бы-
ли установлены части слов обучающей выборки. Полученная модель не смогла превзойти базовые гибридные модели,
однако превзошла базовые интегральные модели как по точности распознавания, так и по скорости декодирования и
обучения. Ошибка распознавания слов в речи равна 24,17 %, а скорость декодирования — 0,3 реального времени, что бы-
стрее базовой интегральной и гибридной моделей на 6 и 46 % соответственно. Также показано, что интегральные модели
могут работать и без языковых моделей для русского языка, демонстрируя при этом скорость декодирования выше,
чем у гибридных моделей. Полученная модель была обучена на данных без выделения каких-либо признаков. В резуль-
тате экспериментов обнаружено, что для русской речи гибридный тип механизма внимания дает наилучший результат
по сравнению с механизмами внимания по расположению и по содержанию. Практическая значимость: полученным
моделям требуется меньший объем памяти и меньшее время декодирования речи по сравнению с традиционными ги-
бридными моделями, что может позволить использовать их на мобильных устройствах локально, без вычислений на
удаленных серверах.

Моделирование систем и процессов

Исследование методов построения моделей кодер-декодер для распознавания русской речи

DOI:

Ключевые слова:

Аннотация

Опубликован

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Мы в сети