Генеративная аугментация для улучшения обнаружения узелков в легких в условиях ограниченных ресурсов
Ключевые слова:
классификация легочных узлов, аугментация данных, генеративные состязательные сети, StyleGAN, КТ-изображениеАннотация
Введение: рак легкого - один из самых опасных видов рака. Использование технологий нейронных сетей для его диагностике является многообещающим, но датасеты, собранные из реальной клинической практики, не могут охватить различные проявления рака легких. Цель: оценка возможности улучшения классификации легочных узлов посредством генеративной аугментации доступных датасетов при ограниченных ресурсах. Методы: мы использовали часть датасета LIDC-IDRI, архитектуру StyleGAN для создания искусственных изображений легочных узлов и модель VGG11 в качестве классификатора. Мы провели генерацию изображений легочных узлов с помощью предложенной схемы и провели их визуальную оценку с привлечением четырех экспертов. Мы сформировали четыре экспериментальных датасета с различными типами аугментации, включая использование синтезированных данных, и сравнили эффективность классификации, выполняемой сетью VGG11 при обучении на каждом датасете. Результаты: для экспертизы были отобраны по 10 генерированных изображений легочных узлов в каждой группе характеристик. Во всех случаях были получены положительные экспертные оценки с коэффициентом каппа Флейса k = 0,6–0,9. Используя предложенный подход генеративной аугментации, мы получили лучшие значения ROCAUC = 0,9604 и PRAUC = 0,9625. Обсуждение: полученные показатели эффективности превосходят результаты бейзлайна, полученные с использованием сравнительно небольших обучающих датасетов, и немного уступают лучшим результатам, достигнутым с использованием гораздо более мощных вычислительных ресурсов. Тем самым мы показали, что для аугментации несбалансированного датасета можно эффективно использовать комбинацию StyleGAN и VGG11, которая не требует больших вычислительных ресурсов, а также большого начального датасета для обучения.