Исследование влияния высокоскоростных видеоданных на точность распознавания аудиовизуальной речи
Ключевые слова:
высокоскоростная видеокамера, аудиовизуальное распознавание речи, шумовые условия, ви- земы, многомодальное взаимодействие, чтение речи по губам диктораАннотация
Введение: эффективность работы современных систем автоматического распознавания речи в тихих акустических
условиях достаточно высока и в среднем достигает 90–95 %. Однако в неконтролируемой среде зачастую происхо-
дит искажение звукового сигнала, что сильно снижает результирующую точность распознавания. В подобных условиях
представляется целесообразным использовать визуальную информацию о речи, так как она не подвержена влиянию
акустического шума. На настоящий момент не существует исследований, объективно показывающих зависимость точ-
ности распознавания визуальной речи от частоты кадров видео. Также отсутствуют соответствующие аудиовизуаль-
ные базы данных для обучения моделей. Цель: сбор представительной базы данных, разработка и исследование авто-
матической системы аудиовизуального распознавания слитной русской речи. Методы: для распознавания речевых сиг-
налов применяются методы на основе сдвоенных скрытых марковских моделей. Для параметрического представления
акустических и визуальных сигналов применяются методы на основе мел-частотных кепстральных коэффициентов
и пиксельные признаки, использующие анализ главных компонент. Результаты: исследовались видеоданные с пятью
различными скоростями следования кадров: 25, 50, 100, 150 и 200 кадров в секунду. Эксперименты показали положи-
тельный эффект от использования высокоскоростной видеокамеры: удалось добиться абсолютного прироста точно-
сти на 1,48 % для бимодальной и 3,10 % для одномодальной системы по сравнению со стандартной скоростью записи
25 кадров в секунду. В результате экспериментов с зашумленными данными удалось установить, что бимодальное рас-
познавание речи превосходит по точности распознавания одномодальное, особенно для низких значений ОСШ < 15 дБ.
При очень низких значениях ОСШ < 5 дБ акустическая информация становится неинформативной, и наилучшие ре-
зультаты показывает одномодальная система видеораспознавания речи. Практическая значимость: использование
высокоскоростной камеры позволяет улучшить точность и робастность системы распознавания слитной русской речи.