Единицы правды и золотые записи

Единицы правды и золотые записи

Главное что важно помнить при работе с любыми открытыми данными, что за редким исключением, почти все данные довольно плохого качества. Ошибки форматирования, структуры, полноты, актуальности, достоверности и соответствия первоисточнику - это присутствует практически всегда. Это, конечно, не только про открытые данные в России, но и как общемировое явление.

Иногда имеющее объективные причины. Например, когда на портале открытых данных Всемирного банка есть разрывы во временных рядах экономических индикаторов, это связано с тем что сбор статистики из некоторых стран был затруднён военным положением или гражданскими войнами, но чаще низкое качество данных сопряжено с отсутствием работы с потребителями данных.

Те кто работает с данными на регулярной основе, особенно с реестровыми данными и данными информационных систем, знают что одно из решений - это построение эталонной базы данных с которой, в дальнейшей, необходимо производить сверку данных во всех остальных источниках.

Эталонная база состоит из "золотых записей" (golden records) - это концепция единичной, хорошо определенной и проверенной записи которой можно назвать "единицой правды" [1].

Внутри крупных и средних компаний создание таких эталонных баз данных - это общепринятая норма, в первую очередь, но не только, это касается баз клиентов, а также объектов деятельности: лицензий на добычу нефти, скважин, продаваемых автомобилей и так далее, в зависимости от бизнеса компании.

Зрелость управления данными можно определять по наличию эталонных баз данных, золотых записей и нормативных справочников, того что называют Reference data с которыми интегрируются все существующие системы в которых есть сведения связанные с этими эталонными данными.

В России есть области в которых подобная работа по систематизации данных ведётся давно и довольно эффективно. Это например:

  • Федеральная информационная адресная система (ФИАС) [2]
  • ЕГРЮЛ и ЕГРИП - эталонные справочники по юр лицам и ИП [3]
  • Реестр НСИ Минздрава России [4]
  • Реестр участников и неучастников бюджетного процесса [5]

и ещё ряд областей где если не всё хорошо, то есть явная и постоянная работа по систематизации баз данных и связанных с ними справочников.

И есть ряд областей с которыми, даже не то что всё плохо, а просто системная работа не ведётся.

  • Учёт результатов деятельности государства (контракты, госпрограммы и нацпроекты)
  • Некоммерческий сектор - ни один из регуляторов даже не то что приблизился приблизился к созданию эталонной базы НКО, но и даже не приступал
  • Нормативно-правовые документы (до сих пор нет эталонной базы по всему жизненному циклу НПА)

и многое другое. С другой стороны создание того же единого реестра населения (ЕФИР) - это также вопрос по созданию эталонной базы данных. С точки зрения управления данными - очень правильная инициатива, другой вопрос что с точки зрения этики работы с данными, всё не так однозначно.

Но всё это в совокупности о том что часто приоритеты отдельных государственных органов и государства в целом не затрагивают отдельные области регулирования и принятия решений где, если данные находятся в непригодном для работы состоянии, то и аналитическая работа и госрегулирование оставляют желать лучшего.

Ссылки:
[1] https://blogs.informatica.com/2015/05/08/golden-record/
[2] https://fias.nalog.ru/
[3] http://egrul.nalog.ru
[4] http://nsi.rosminzdrav.ru/
[5] http://budget.gov.ru
[6] http://programs.gov.ru