Графовый метод расширенного поиска знаний в специализированных текстах, содержащих координаты, географические названия и аббревиатуры
Ключевые слова:
Аннотация
Введение: современные методы расширенного поиска знаний демонстрируют ограниченную эффективность при обработке специализированных текстов, содержащих координаты, топонимы и аббревиатуры, поскольку такие данные требуют одновременного учета семантических и пространственно-структурных зависимостей. Традиционные векторные подходы ориентированы преимущественно на обобщенную семантическую близость и слабо отражают явные пространственные связи между сущностями, что снижает точность поиска в специализированных корпусах. Цель: разработать метод семантического поиска в специализированных текстах, содержащих координаты, топонимы и аббревиатуры, за счет интеграции пространственно-структурной информации в процесс расширенного поиска знаний. Результаты: предложена гибридная архитектура, объединяющая извлечение и нормализацию сущностей, построение графа знаний на основе пространственной и семантической близости, а также гибридный алгоритм поиска, сочетающий графовый и векторный компоненты с настраиваемым весовым коэффициентом. Экспериментальная проверка метода проведена на открытом наборе геопространственных данных, преобразованном в текстовый корпус, отражающий типовые сценарии пространственного поиска. Результаты показали, что предложенный гибридный подход демонстрирует улучшение по метрике MAP по сравнению с векторным поиском и значительное превосходство над графовым методом по всем метрикам. При этом значение MRR уступает векторному поиску, что указывает на компромисс между точностью первой позиции и устойчивостью ранжирования в целом. Установлено, что оптимальное соотношение вкладов графового и векторного компонентов позволяет повысить устойчивость ранжирования и полноту ответов при
обработке запросов, содержащих координаты и географические наименования. Практическая значимость: предложенный метод может быть использован в системах геоинформационного анализа, интеллектуального поиска и автоматической обработки технической документации. Метод обеспечивает интерпретируемость результатов за счет явного представления знаний в виде графа, устойчивость к разнородным данным и адаптивность к различным типам пользовательских запросов. Обсуждение: перспективы дальнейших исследований связаны с применением методов обучения без учителя для снижения зависимости от качества разметки, а также с оптимизацией вычислительной эффективности и масштабируемости графовых моделей знаний.