Контекстно зависимый способ поиска нечётких дубликатов в реляционных базах данных

Сергей Витальевич Тарасов; Вадим Витальевич Бураков

doi:10.15217/issn1684-8853.2015.2.76

Тарасов Сергей Витальевич Компания Bel Air Informatique, Courtaboeuf Cedex
Бураков Вадим Витальевич Санкт-Петербургский государственный университет аэрокосмического приборостроения

DOI:

https://doi.org/10.15217/issn1684-8853.2015.2.76

Ключевые слова:

Аннотация

Постановка проблемы: одной из важных проблем в области управления данными является их неполное (нечеткое) дублирование, ведущее к снижению качества, в частности к ошибочной интерпретации информационной системой одного и того же объекта как нескольких разных. Реляционная модель данных, а также промышленные СУБД на основе реляционной модели, позволяют исключить ситуации полного дублирования данных, но не имеют механизмов для распознавания и предотвращения появления нечетких дубликатов. Целью работы является разработка такого способа обнаружения нечетких дубликатов, который мог бы быть реализован в реляционной модели данных и промышленной реляционной СУБД. Результаты: рассмотрена общая для информационных систем проблема нечеткого дублирования, предложены пути внесения смысловой дублирующей информации в реляционную базу данных. Определено, что для решения проблемы неполного дублирования следует использовать механизмы нечеткого сравнения строк с учетом их семантики. Приведен пример практической реализации способа для СУБД PostgreSQL с использованием реляционных механизмов обработки данных. Практическая значимость: разработанный способ позволяет автоматически обнаруживать дубликаты, исключив вмешательство человека-оператора, и тем самым повысить качество данных информационной системы. Пример практической реализации для промышленной СУБД позволяет непосредственно использовать предложенный способ в инженерной практике разработки информационных систем. Данный способ также был использован авторами при разработке коммерческой автоматизированной информационной системы.

Программные и аппаратные средства

Контекстно зависимый способ поиска нечётких дубликатов в реляционных базах данных

DOI:

Ключевые слова:

Аннотация

Опубликован

Как цитировать

Выпуск

Раздел

Разделы

Мы в сети

Мы в сети