Система автоматического распознавания карельской речи
Ключевые слова:
малоресурсные языки, автоматическое распознавание речи, карельский язык, искусственные нейронные сети с временной задержкойАннотация
Введение: в последнее время растет число исследований, посвященных автоматической обработке малоресурсных языков. Отсутствие или малый объем обучающих данных является существенным препятствием в развитии речевых технологий для подобных языков. Цель: разработать систему автоматического распознавания речи на карельском языке. Результаты: представлена система автоматического распознавания карельской речи. Обучены акустические модели на основе искусственных нейронных сетей с временными задержками и скрытых марковских моделей. Обучение осуществлялось на речевом корпусе, составленном из записей радиопередач и аудиоданных, полученных путем аугментации. Модель карельского языка обучалась как на письменных текстах, так и на расшифровках обучающей части речевого корпуса. Во время обучения исследовались различные коэффициенты для интерполяции языковой модели, обученной на расшифровках, с моделью языка, обученной на письменных текстах. В ходе экспериментов по распознаванию карельской речи лучший результат по показателю количество неправильно распознанных слов составил 25,81 %, что сопоставимо с общим уровнем распознавания речи для других малоресурсных языков. Собран обучающий набор данных, который включает звукозаписи на карельском языке с расшифровками, а также текстовый корпус. Практическая значимость: полученные решения могут играть роль в создании автоматических систем распознавания не только карельского, но и других малоресурсных языков. Разработанная система поможет исследователям карельского языка, предоставляя эффективный инструмент для записи и обработки карельского языкового материала.