Size: a a a

Чат к каналу @begtin

2020 June 02

1

1 in Чат к каналу @begtin
ID:0
Пришла пора поговорить о качестве данных собираемых органами власти. Забегая вперёд скажу что она невысокая, в качестве примера рассмотрим свежеопубликованный [1]
Минэкономразвития список системообразующих предприятий. его можно скачать напрямую в Excel [2].

Посмотрев на этот список внимательно, можно обратить внимание что на какие-то самые очевидные проблемы, когда указан ИНН организации с размером меньше на один символ, но даже беглая автоматизированная проверка показала что там не только с этим плохо.

Поскольку я хочу, в дальнейшем, этот кейс использовать как обучающий, дальше буду объяснять максимально подробно, надеюсь тем кто умеет работать с данными будет не очень скучно;)

Краткие выводы (Executive Summary)
В 4,3% записей в списке системообразующих предприятий содержатся ошибки, включая
- у 31 организации, неверно указан код ИНН (опечатка или ошибка форматирования с потерей первого символа)
- у 12 организаций указано устаревшее название, как правило ОАО или ЗАО вместо АО
- у 6 организаций те или иные ошибки в их наименовании, опечатки смысловые и иные
- у 2 организаций указаны реквизиты других существующих организаций, ошибки которые невозможно совершить опечатками

Причины этого в низкой культуре работы с данными в Минэкономразвития России, отсутствии мер по проверки поступающих им данных.

Методика
Итак, какие правила валидации сведений об организациях обычно применяют:
- проверка кодов реквизитов (ИНН и ОГРН), в нашем случае у организаций есть только коды ИНН
- корректность названия организации, разделяется на (устаревшее название, ошибка в названии)
- указание неверной организации, когда реквизиты и название организаций ошибочны. Например, ИНН указывает на одну, а название на совершенно другую.

Входящие данные и их подготовка
Что у нас есть на входе, Excel файл [2] со списком организаций, однако в поле ИНН по некоторым из них вписано до двух кодов, а то есть юр. лиц у нас как минимум больше на эти дополнительные коды.
1. Проводим перестройку списка и получаем на выходе список из 1173 организаций (у 22 записей были по 2 кода ИНН, так что и получается 1151 + 22 = 1173), остальные значения в строках для добавленных записей оставляем прежними.
Всё это делается автоматически, коды ИНН в колонке "ИНН" разделены запятыми.
2. Преобразуем всё в CSV файл, нормируем названия полей в англоязычный формат (удобнее для обработки и большая стандартизация названий)
3. Делаем очистку поля ИНН от пробелов, "тримминг" так чтобы остались только значения цифр.

В итоге получаем CSV файл пригодный для последующего обогащения данными

Начальная проверка
Полученного нормализованного файла достаточно чтобы провести первую, быструю проверку.  В репозитории утилиты Undatum есть код проверки ИНН [3], достаточно выполнить функцию _check_inn и сохранить результаты в новом CSV файле c колонкой valid_inn.
После проверки у нас должно получиться 31 ИНН не проходящих валидацию. У 4-х кодов будут опечатки в цифрах и у 27 кодов ошибка при форматировании, "съеден" ноль в численном значении, поскольку Excel часто считает что в колонке ИНН указано число, а не численная строка, то удаляет нули. Но грамотные Excel пользователи это знают и за таким следят.

После начальной проверки переходим к углублённой и для этого обогатим данные.

Обогащение данных
Для анализа нам необходимо:
a) Проверить реквизиты, в нашем случае код ИНН, уже сделано, данные новые тут не нужны
б) Проверить названия организаций, для чего нам нужны другие названия этой организации которые можно взять в статрегистре Росстата (обновляется раз в год, может быть устаревшим) и в ЕГРЮЛе (всегда актуально).
в) Возможно нам в будущем понадобятся другие данные, поэтому почему бы нам не добавить из ЕГРЮЛа ещё и код ОГРН, он поможет сопоставить с другими реестрами и основной код ОКВЭД, вдруг мы захотим проверить как отрасль указанная в списке соответствует основной деятельности организации.
Не зря вы проделали свой анализ
источник

1

1 in Чат к каналу @begtin
Документ из архива экспонирующегося в нашем приватном канале.

Письмо министра экономического развития Решетникова М.Г. первому заместителю Председателя правительства Белоусову А.Р.

Речь идет об актуализации перечня системообразующих организаций российской экономики, включения в перечень новых организаций и расширения отраслей и отраслевых показателей для включения в перечень.

Письмо сопровождается приложениями на нескольких сотнях страниц.
источник

1

1 in Чат к каналу @begtin
источник

1

1 in Чат к каналу @begtin
источник

1

1 in Чат к каналу @begtin
источник

1

1 in Чат к каналу @begtin
источник

1

1 in Чат к каналу @begtin
источник

IB

Ivan Begtin in Чат к каналу @begtin
1
Не зря вы проделали свой анализ
Да черт их знает, может они и сами догадались, уж больно явные были косяки.
источник

ГМ

Григорий Машанов... in Чат к каналу @begtin
Ivan Deryabin
Добрый день! Подскажите где можно посмотреть среднесписочную численность по ИНН но не на текущую дату а за предыдущие года тоже?
Есть на сайте налоговой массивы открытых данных
А так в любой системе проверки контрагентов, например в спарке. Есть и в открытом доступе у некоторых такие данные
источник

ID

Ivan Deryabin in Чат к каналу @begtin
Григорий Машанов
Есть на сайте налоговой массивы открытых данных
А так в любой системе проверки контрагентов, например в спарке. Есть и в открытом доступе у некоторых такие данные
У всех информ сервисов только 2018 год. На налоговой тоже надо дергать в каждый год
источник
2020 June 03

NK

ID:0 in Чат к каналу @begtin
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un
источник

V

V in Чат к каналу @begtin
все замечания отрасли по бесплатному интернету были проигнорированы https://t.me/usher2/1638
Telegram
Эшер II
#regulation #орв 30 апреля 2020 года Минцифра со второй попытки разместила текст проекта изменений в закон «о Связи» в целях обеспечения оказания гражданам на безвозмездной основе услуг связи по передаче данных и предоставлению доступа к интернету на территории Российской Федерации для использования отечественных социально-значимых интернет-сервисов (БЕСПЛАТНОМ ИНТЕРНЕТЕ):
https://regulation.gov.ru/p/101646

👉  26 мая 2020 года было закончено публичное обсуждение проекта и сейчас проект отправлен для получения Заключения оценки регулирующего воздействия. Комментарии к проекту публичны и доступны всем по ссылке «Ваши предложения»

❌❌❌ Замечаний оказалось много. В том числе и от крупных провайдеров, и от ассоциаций. Минцифра не учла АБСОЛЮТНО ВСЕ замечания

🔥🔥🔥  Мне понятно, когда разработчики проекта ставили формальное «Предложения рассмотрены. Причины их отклонения указаны.» к замечаниям, не подразумевающим ответа. Например «В данной редакции законопроект окажет негативное влияние». Ну ок. Но много таких, с позволения…
источник

PK

Phil Kulin in Чат к каналу @begtin
Это кстати самый глобальный игнор, какой я только видел в практике отслеживания проектов (я, правда, отслеживаю только узко-тематические). Там было внезапно много содержательных замечаний, много ассоциаций поучаствовало, много граждан не просто короткие реплики оставили. Даже «сувенирка» столько не собирала. И тут — Boom!
источник

IB

Ivan Begtin in Чат к каналу @begtin
Phil Kulin
Это кстати самый глобальный игнор, какой я только видел в практике отслеживания проектов (я, правда, отслеживаю только узко-тематические). Там было внезапно много содержательных замечаний, много ассоциаций поучаствовало, много граждан не просто короткие реплики оставили. Даже «сувенирка» столько не собирала. И тут — Boom!
Кстати насчёт глобального игнора, давно хотим проверить насколько работоспособен regulation.gov.ru, посмотреть какие и кто комментарии пишут и какая на них реакция. Тебе парсер регулэйшена не попадался? А то там в открытых данных только реестр проектов НПА, а комментарии и реакцию на них надо из сайта извлекать, а у нас пока до него руки не дошли
источник

PK

Phil Kulin in Чат к каналу @begtin
Ivan Begtin
Кстати насчёт глобального игнора, давно хотим проверить насколько работоспособен regulation.gov.ru, посмотреть какие и кто комментарии пишут и какая на них реакция. Тебе парсер регулэйшена не попадался? А то там в открытых данных только реестр проектов НПА, а комментарии и реакцию на них надо из сайта извлекать, а у нас пока до него руки не дошли
Да я могу даже так сказать. Если нет политического решения (честно говоря, до сих пор не верится, что такое есть, я в этом смысле крайне туповат), или полного непонимания, помноженного на стереотипы (например, я с этим столкнулся частично в проекте ПДД), то в принципе regulation работает. Как пример — заинтересанты очень довольны взаимодействием с ФСТЭК по проектам в рамках КИИ.

Про парсер это интересный вопрос. Если никто из нас не написал - значит нет.
1. Я не всегда понимаю как работает regulation. Например, мне не ясна "История", а это важно. Если кто из Минэка это вынет описательно - будет круто
2. Там всё на JS, у них точно есть API для этого JS. Если его из них вынуть, то в принципе не так сложно будет написать парсер
источник

NK

ID:0 in Чат к каналу @begtin
Хабр оказался на удивление плох в организации встречи с ДИТом Москвы в лице Эдуарда Лысенко https://www.youtube.com/watch?v=kXd40iEUFrY&feature=youtu.be

Даже не знаю что тут было хуже, ответы Эдуарда или слабые ведущие, но в целом картина гнетущая.

#privacy #habr
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
Может быть так было задумано
источник

AK

Alex Kartashev in Чат к каналу @begtin
Arthur Auhadeev
Может быть так было задумано
Будет же вторая встреча куда позвали ИТ и СОРМ и еще пару интересных людей
источник

DA

Dmitry A in Чат к каналу @begtin
Ну хабр вроде же сказал, что они это делать не умеют и больше не хотят
источник

IB

Ivan Begtin in Чат к каналу @begtin
Скорее продолбано, чем задумано
источник