Аналитический обзор интегральных моделей и стратегий распознавания речи на основе архитектуры трансформер
Ключевые слова:
интегральные модели, трансформер, трансдьюсер, декодирование, автоматическое распознавание речиАннотация
Введение: одной из тенденций в области распознавания естественных языков является переход от модульных архитектур к интегральным моделям. Эти системы объединяют различные этапы обработки, такие как акустическое, языковое и лексическое моделирование и декодирование, в единую архитектуру. Среди современных архитектур, наиболее часто используемых для интегрального распознавания речи, находится архитектура трансформер, а также ее модификации. Цель: выполнить подробный обзор моделей интегрального распознавания речи на базе архитектуры трансформер. Результаты: анализ различных стратегий декодирования позволил сделать ряд выводов. Так, коннекционная временная классификация эффективна при отсутствии выравнивания между речевым сигналом и текстовыми транскрипциями, но ее применение не рационально, если длина входных данных меньше длины выходных. Основным недостатком моделей, работающих по стратегии коннекционной временной классификации, является предположение о независимости выходных символов. Гораздо перспективнее оказываются трансдьюсеры, учитывающие предшествующий контекст для каждого выходного символа, и шифраторы-дешифраторы с механизмом внимания, позволяющие учитывать долгосрочные зависимости и контекст. Обратной стороной последней стратегии является невысокая скорость, что ограничивает ее использование в реальном времени. Каждая из рассмотренных в статье стратегий, таким образом, имеет свои достоинства, но лучше всего проявляет себя с задачами конкретного типа. Практическая значимость: представленный обзор рассматривается как вклад в изучение быстроразвивающейся области интегрального распознавания речи независимо от конкретных естественных языков. Полученные выводы могут найти практическое применение при создании систем автоматического распознавания речи на естественных языках, в том числе и на малоресурсных языках. Обсуждение: существующая тенденция к увеличению размера моделей делает наиболее перспективными гибридные решения, учитывающие необходимость использования систем распознавания речи в режиме реального времени и требующие меньших вычислительных ресурсов.