Аналитический обзор применения больших языковых моделей для автоматического распознавания речи

Ирина Сергеевна Кипяткова; Михаил Дмитриевич Долгушин; Ильдар Амирович Кагиров

doi:10.31799/1684-8853-2026-1-19-35

Кипяткова Ирина Сергеевна Санкт-Петербургский Федеральный исследовательский центр РАН https://orcid.org/0000-0002-1264-4458
Долгушин Михаил Дмитриевич Санкт-Петербургский Федеральный исследовательский центр РАН http://orcid.org/0000-0002-4344-2330
Кагиров Ильдар Амирович Санкт-Петербургский Федеральный исследовательский центр РАН http://orcid.org/0000-0003-1196-1117

DOI:

https://doi.org/10.31799/1684-8853-2026-1-19-35

Ключевые слова:

Аннотация

Введение: одной из тенденций в области обработки естественных языков является использование больших языковых моделей. В системах распознавания речи большие языковые модели начинают заменять традиционные благодаря их способности учитывать более широкий контекст. Цель: выполнить систематизацию и обобщение существующих методов совместного использования систем автоматического распознавания речи и больших языковых моделей. Результаты: выявлены основные тенденции внедрения больших языковых моделей в процесс распознавания речи. Анализ продемонстрировал, что применение больших языковых моделей для переоценки гипотез и коррекции ошибок распознавания стабильно улучшает результаты распознавания, хотя это улучшение не всегда является принципиальным и сопряжено с риском генерации недостоверной информации вследствие возможных галлюцинаций моделей. Установлено, что контекстуализация и контекстное обучение больших языковых моделей могут как значительно улучшать, так и, в некоторых случаях, ухудшать результаты распознавания. Практическая значимость: полученные выводы могут найти практическое применение при создании систем автоматического распознавания речи на различных естественных и малоресурсных языках, а также для речи с переключением кодов. Обсуждение: установлено, что рекуррентные и диффузионные архитектуры больших языковых моделей пока не получили широкого распространения в задачах распознавания речи, однако обладают значительным потенциалом. Отмечена тенденция к использованию декодерных архитектур, что в свою очередь порождает проблемы галлюцинаций и ориентации на письменные нормы при генерации текста.

Обработка информации и управление

Аналитический обзор применения больших языковых моделей для автоматического распознавания речи

DOI:

Ключевые слова:

Аннотация

Опубликован

Как цитировать

Выпуск

Раздел

Разделы

Мы в сети

Мы в сети