Государство как пират
Пиратское ПО в России всегда было популярно. Результаты этого исследования это попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.
Пиратское ПО в России всегда было популярно. В 90е годы мало кто не покупал диски с Windows или Office на с рук, а позже мало кто не скачивал "бесплатный софт" с "варезных сайтов". Результаты этого исследования это попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.
Кратко
Для тех кто полениться дочитать до конца, сразу итоги сжато и тезисами:
- 23 федеральных органа власти в России публикуют документы на своих сайтах сделанные в пиратском MS Office
- среди них у 5 федеральных органа исполнительной власти у которых более 20% подобных документов сделанных в пиратском MS Office
- это результаты анализа 22 318 документов в формате MS Word выкачанных с сайтов органов власти в прошлом году и проверенных на наличие меток в свойствах документов которые оставляют пиратские пакеты MS Office.
Является ли это целевой госполитикой органов власти или это последствия отсутствия какой-либо госполитики ещё в 90-е годы - это отдельный большой разговор о том как устроено гос ИТ в России.
Подробнее
Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать если нельзя взглянуть на компьютер каждого пользователя?
Но что если это можно узнать по каким-то косвенным признакам? Что если это всё таки возможно?
Много лет я занимаюсь тем что архивирую сайты органов власти. Это помогает не только сохранить те данные которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования. Примером таких данных являются документы создаваемые в офисных пакетах таких как MS Office.
В этих файлах есть много интересного, от данных которые можно извлечь из Excel файлов и таблиц в документах .DOC, до свойств документов.
И вот тут то начинается самое интересное. Те кто когда-либо сталкивался с документами сделанными на пиратских версиях MS Office знают что команды пиратов которые выкладывают взломанные версии ПО вносят изменения таким образом что при установке в качестве организации указывается их хакерская команда, а иногда подменяют и имя пользователя.
Это можно увидеть на отдельных файлах, например в этом файле на сайте Минспорта России http://minsport.gov.ru/fextovanie14.doc
можно увидеть как в названии организации используется Reanimator Extreme Edition.
Это один из брендов команд распространяющих пиратское ПО, кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.
Отдельные документы, впрочем, могут встречаться где-угодно, как решить задачу проверки использования пиратского ПО системно?
- Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через Хаб открытых данных
- Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч документов.
- Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
- Для 5 органов власти в архиве нашлось менее 100 документов поэтому они были выбраны из итоговой выборки из-за возможной неточности оценки
- Для всех остальных документов на основе их метаданных в поле "comments.Company" было идентифицировано сделан ли документ в пиратском ПО MS Office или же нет.
- Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net
- Этот список, на самом деле шире, эти метки выявлялись ранее поиском по документам в "дикой природе", базы в несколько миллионов документов собранной ранее и полу-автоматически размеченной по наиболее часто встречающимся отметкам того от каких организаций они собраны.
- В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того что они сделаны с помощью пиратского ПО.
Итоговая таблица распределения доли документов созданных в пиратском MS Office выглядит вот так.
А вот так выглядит распределение по долям документов созданных в пиратском MS Office по органам власти.
Лидеры по числу документов с такими признаками это:
- Минтруд России
- Минспорт России
- Росморречфлот
- Росавтодор
- Росгидромет
Орган власти на сайте которого не было найдено ни одного такого документа - это Правительство РФ на их сайте government.ru.
Выводы
Самый очевидный вывод - пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office - это, на текущий момент, 6.64% что относительно немного, но достаточно много чтобы быть непреднамерянной случайностью. Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций, почти наверняка, подтвердит эти цифры.
Как воспроизвести эти результаты?
Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.
Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами Президента https://udprf.ru/sites/default/files/IC_Skachki-internet.doc
Ограничения
- Документы .DOC созданные, в основном, в MS Word - одни из самых распространенных, но не единственные содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями как .ppt, .xls, .docx, .xlsx, .pptx и многих других
- Каждый сайт органа власти по объёму это, часто, более 10 гигабайт, а кое-где и до 150 ГБ. А некоторые сайты сделаны так что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить все, то вполне возможно что пятёрка лидеров сменится.
Ссылки
[1] Все собранные данные https://data.world/infoculture/government-piracy
[2] Национальный цифровой архив http://ruarxive.org/
[3] Hachoir python library https://github.com/vstinner/hachoir