Государство как пират

Пиратское ПО в России всегда было популярно. Результаты этого исследования это попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

Государство как пират

Пиратское ПО в России всегда было популярно. В 90е годы мало кто не покупал диски с Windows или Office на с рук, а позже мало кто не скачивал "бесплатный софт" с "варезных сайтов". Результаты этого исследования это попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

Кратко

Для тех кто полениться дочитать до конца, сразу итоги сжато и тезисами:

  • 23 федеральных органа власти в России публикуют документы на своих сайтах сделанные в пиратском MS Office
  • среди них у 5 федеральных органа исполнительной власти у которых более 20% подобных документов сделанных в пиратском MS Office
  • это результаты анализа 22 318 документов в формате MS Word выкачанных с сайтов органов власти в прошлом году и проверенных на наличие меток в свойствах документов которые оставляют пиратские пакеты MS Office.

Является ли это целевой госполитикой органов власти или это последствия отсутствия какой-либо госполитики ещё в 90-е годы - это отдельный большой разговор о том как устроено гос ИТ в России.

Подробнее

Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать если нельзя взглянуть на компьютер каждого пользователя?

Но что если это можно узнать по каким-то косвенным признакам? Что если это всё таки возможно?

Много лет я занимаюсь тем что архивирую сайты органов власти. Это помогает не только сохранить те данные которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования. Примером таких данных являются документы создаваемые в офисных пакетах таких как MS Office.
В этих файлах есть много интересного, от данных которые можно извлечь из Excel файлов и таблиц в документах .DOC, до свойств документов.

И вот тут то начинается самое интересное. Те кто когда-либо сталкивался с документами сделанными на пиратских версиях MS Office знают что команды пиратов которые выкладывают взломанные версии ПО вносят изменения таким образом что при установке в качестве организации указывается их хакерская команда, а иногда подменяют и имя пользователя.

Это можно увидеть на отдельных файлах, например в этом файле на сайте Минспорта России http://minsport.gov.ru/fextovanie14.doc
можно увидеть как в названии организации используется Reanimator Extreme Edition.
explorer_2019-04-17_06-40-06

Это один из брендов команд распространяющих пиратское ПО, кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.

Отдельные документы, впрочем, могут встречаться где-угодно, как решить задачу проверки использования пиратского ПО системно?

  1. Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через Хаб открытых данных
  2. Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч документов.
  3. Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
  4. Для 5 органов власти в архиве нашлось менее 100 документов поэтому они были выбраны из итоговой выборки из-за возможной неточности оценки
  5. Для всех остальных документов на основе их метаданных в поле "comments.Company" было идентифицировано сделан ли документ в пиратском ПО MS Office или же нет.
  6. Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net
  7. Этот список, на самом деле шире, эти метки выявлялись ранее поиском по документам в "дикой природе", базы в несколько миллионов документов собранной ранее и полу-автоматически размеченной по наиболее часто встречающимся отметкам того от каких организаций они собраны.
  8. В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того что они сделаны с помощью пиратского ПО.

Итоговая таблица распределения доли документов созданных в пиратском MS Office выглядит вот так.
EXCEL_2019-04-16_14-15-53

А вот так выглядит распределение по долям документов созданных в пиратском MS Office по органам власти.
EXCEL_2019-04-17_06-06-10

Лидеры по числу документов с такими признаками это:

  1. Минтруд России
  2. Минспорт России
  3. Росморречфлот
  4. Росавтодор
  5. Росгидромет

Орган власти на сайте которого не было найдено ни одного такого документа - это Правительство РФ на их сайте government.ru.

Выводы

Самый очевидный вывод - пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office - это, на текущий момент, 6.64% что относительно немного, но достаточно много чтобы быть непреднамерянной случайностью. Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций, почти наверняка, подтвердит эти цифры.

Как воспроизвести эти результаты?

Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.

Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами Президента https://udprf.ru/sites/default/files/IC_Skachki-internet.doc
explorer_2019-04-17_06-29-09

Ограничения

  1. Документы .DOC созданные, в основном, в MS Word - одни из самых распространенных, но не единственные содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями как .ppt, .xls, .docx, .xlsx, .pptx и многих других
  2. Каждый сайт органа власти по объёму это, часто, более 10 гигабайт, а кое-где и до 150 ГБ. А некоторые сайты сделаны так что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить все, то вполне возможно что пятёрка лидеров сменится.

Ссылки

[1] Все собранные данные https://data.world/infoculture/government-piracy
[2] Национальный цифровой архив http://ruarxive.org/
[3] Hachoir python library https://github.com/vstinner/hachoir