Метод обучения моделей компьютерного зрения на основе кросс-модальной дистилляции знаний с применением больших визуальных моделей
Ключевые слова:
Аннотация
Введение: имеющиеся методы обучения мультимодальных моделей компьютерного зрения в большинстве случаев представляют собой отдельные ветви выделения распознавания признаков с поздним смешением результатов. Цель: разработать метод создания мультимодальных моделей компьютерного зрения с использованием единого представления мультимодальных данных для упрощения процессов смешения данных и дистилляции знаний. Методы: сериализация разреженных и плотных типов данных; кросс-модальная дистилляция знаний для архитектур компьютерного зрения; применение больших визуальных моделей для дистилляции знаний в сериализованном формате. Результаты: разработан метод обучения моделей компьютерного зрения на основе кривых Пеано с использованием дистилляции знаний из больших визуальных моделей. Метод позволяет производить смешение данных различных размерностей с помощью кросс-модального внимания в реальном времени посредством применения одномерных кривых Пеано (кривых Гильберта и Мортона) для сериализации многомерных данных. Предложенный метод показал задержку 50 мс против 40 мс в одномодальном режиме (Point Transformer v3), что свидетельствует о низких накладных расходах при кросс-модальной дистилляции на сериализованных картах признаков. Метод протестирован в режиме предобучения на датасете nuScenes с обращением к большой визуальной модели DINOv3. В режиме дистилляции использование 25 % от общего набора данных обеспечило 79,2 mIoU по сравнению с 82,1 mIoU при 100 % набора данных с функцией потерь – коэффициентом Отиаи. Практическая значимость: с использованием сериализованного представления данных методы кросс-модального смешения станут менее ресурсозатратными. Обсуждение: предложенный метод позволяет унифицировать декодер в модели сегментации смешанных данных благодаря кросс-модальному смешению сериализованных признаков после энкодеров изображений и облаков точек. При этом ранняя сериализация изображений показала себя нецелесообразной ввиду изначально плотной структуры изображений. Реализация метода сериализации изображений с меньшим временем выполнения даст возможность отказаться от раздельных энкодеров для ветвей облаков точек и изображений, что может существенно упростить архитектуру.