Исследование влияния высокоскоростных видеоданных на точность распознавания аудиовизуальной речи

Денис Викторович Иванько; Дмитрий Александрович Рюмин; Алексей Анатольевич Карпов; Милош Железны

doi:10.31799/1684-8853-2019-2-26-34

Иванько Денис Викторович аспирантСанкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО)
Рюмин Дмитрий Александрович
Карпов Алексей Анатольевич СПИИРАН
Железны Милош заместитель деканаЗападночешский университет

DOI:

https://doi.org/10.31799/1684-8853-2019-2-26-34

Ключевые слова:

высокоскоростная видеокамера, аудиовизуальное распознавание речи, шумовые условия, ви- земы, многомодальное взаимодействие, чтение речи по губам диктора

Аннотация

Введение: эффективность работы современных систем автоматического распознавания речи в тихих акустических
условиях достаточно высока и в среднем достигает 90–95 %. Однако в неконтролируемой среде зачастую происхо-
дит искажение звукового сигнала, что сильно снижает результирующую точность распознавания. В подобных условиях
представляется целесообразным использовать визуальную информацию о речи, так как она не подвержена влиянию
акустического шума. На настоящий момент не существует исследований, объективно показывающих зависимость точ-
ности распознавания визуальной речи от частоты кадров видео. Также отсутствуют соответствующие аудиовизуаль-
ные базы данных для обучения моделей. Цель: сбор представительной базы данных, разработка и исследование авто-
матической системы аудиовизуального распознавания слитной русской речи. Методы: для распознавания речевых сиг-
налов применяются методы на основе сдвоенных скрытых марковских моделей. Для параметрического представления
акустических и визуальных сигналов применяются методы на основе мел-частотных кепстральных коэффициентов
и пиксельные признаки, использующие анализ главных компонент. Результаты: исследовались видеоданные с пятью
различными скоростями следования кадров: 25, 50, 100, 150 и 200 кадров в секунду. Эксперименты показали положи-
тельный эффект от использования высокоскоростной видеокамеры: удалось добиться абсолютного прироста точно-
сти на 1,48 % для бимодальной и 3,10 % для одномодальной системы по сравнению со стандартной скоростью записи
25 кадров в секунду. В результате экспериментов с зашумленными данными удалось установить, что бимодальное рас-
познавание речи превосходит по точности распознавания одномодальное, особенно для низких значений ОСШ < 15 дБ.
При очень низких значениях ОСШ < 5 дБ акустическая информация становится неинформативной, и наилучшие ре-
зультаты показывает одномодальная система видеораспознавания речи. Практическая значимость: использование
высокоскоростной камеры позволяет улучшить точность и робастность системы распознавания слитной русской речи.

Обработка информации и управление

Исследование влияния высокоскоростных видеоданных на точность распознавания аудиовизуальной речи

DOI:

Ключевые слова:

Аннотация

Опубликован

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Мы в сети