Единицы правды и золотые записи
Главное что важно помнить при работе с любыми открытыми данными, что за редким исключением, почти все данные довольно плохого качества. Ошибки форматирования, структуры, полноты, актуальности, достоверности и соответствия первоисточнику - это присутствует практически всегда. Это, конечно, не только про открытые данные в России, но и как общемировое явление.
Иногда имеющее объективные причины. Например, когда на портале открытых данных Всемирного банка есть разрывы во временных рядах экономических индикаторов, это связано с тем что сбор статистики из некоторых стран был затруднён военным положением или гражданскими войнами, но чаще низкое качество данных сопряжено с отсутствием работы с потребителями данных.
Те кто работает с данными на регулярной основе, особенно с реестровыми данными и данными информационных систем, знают что одно из решений - это построение эталонной базы данных с которой, в дальнейшей, необходимо производить сверку данных во всех остальных источниках.
Эталонная база состоит из "золотых записей" (golden records) - это концепция единичной, хорошо определенной и проверенной записи которой можно назвать "единицой правды" [1].
Внутри крупных и средних компаний создание таких эталонных баз данных - это общепринятая норма, в первую очередь, но не только, это касается баз клиентов, а также объектов деятельности: лицензий на добычу нефти, скважин, продаваемых автомобилей и так далее, в зависимости от бизнеса компании.
Зрелость управления данными можно определять по наличию эталонных баз данных, золотых записей и нормативных справочников, того что называют Reference data с которыми интегрируются все существующие системы в которых есть сведения связанные с этими эталонными данными.
В России есть области в которых подобная работа по систематизации данных ведётся давно и довольно эффективно. Это например:
- Федеральная информационная адресная система (ФИАС) [2]
- ЕГРЮЛ и ЕГРИП - эталонные справочники по юр лицам и ИП [3]
- Реестр НСИ Минздрава России [4]
- Реестр участников и неучастников бюджетного процесса [5]
и ещё ряд областей где если не всё хорошо, то есть явная и постоянная работа по систематизации баз данных и связанных с ними справочников.
И есть ряд областей с которыми, даже не то что всё плохо, а просто системная работа не ведётся.
- Учёт результатов деятельности государства (контракты, госпрограммы и нацпроекты)
- Некоммерческий сектор - ни один из регуляторов даже не то что приблизился приблизился к созданию эталонной базы НКО, но и даже не приступал
- Нормативно-правовые документы (до сих пор нет эталонной базы по всему жизненному циклу НПА)
и многое другое. С другой стороны создание того же единого реестра населения (ЕФИР) - это также вопрос по созданию эталонной базы данных. С точки зрения управления данными - очень правильная инициатива, другой вопрос что с точки зрения этики работы с данными, всё не так однозначно.
Но всё это в совокупности о том что часто приоритеты отдельных государственных органов и государства в целом не затрагивают отдельные области регулирования и принятия решений где, если данные находятся в непригодном для работы состоянии, то и аналитическая работа и госрегулирование оставляют желать лучшего.
Ссылки:
[1] https://blogs.informatica.com/2015/05/08/golden-record/
[2] https://fias.nalog.ru/
[3] http://egrul.nalog.ru
[4] http://nsi.rosminzdrav.ru/
[5] http://budget.gov.ru
[6] http://programs.gov.ru