Size: a a a

Чат к каналу @begtin

2020 June 07

AB

Albert Bertyakov in Чат к каналу @begtin
ID:151239738
Александр, доброго дня) спрос на качественные данные со стороны общества есть давно))
+100500
источник

СИ

Сергей Ильин... in Чат к каналу @begtin
Aleksandr Maslov
Прикольно)
Я дирдеп цифровой трансформации минэк. Очень интересно что со стороны сообщества есть запрос на качественные данные. Мы ещё только взялись за цифру в минэке. Сейчас этот список - только результат работы чиновников. Ни о какой открытости да и наверно о вашем существовании они не знают.
Также как было и с сисобр предпр.
Но зная ваш запрос, сделаем чтобы в обозримом будущем подобные реестры становились чистыми... Инерционная система. Но теперь есть кому ее раскачивать.
Действительно, как-то очень странно, что обществу нужна не непроверенная хрень, а качественные данные. Прям внезапно.
Никогда такого не было и вот опять.
источник

AM

Aleksandr Maslov in Чат к каналу @begtin
Ребят. Сонко сидят на большом БП. Он цифрован на 10% дай бог. В ходе аудита внутреннего я много таких штук накопал. По хорошему везде подложить систему. Чтобы данные рождались в цифре а не заносились потом. Надеюсь выйду на этот уровень с минэком за 2021
источник

IB

Ivan Begtin in Чат к каналу @begtin
Aleksandr Maslov
Ребят. Сонко сидят на большом БП. Он цифрован на 10% дай бог. В ходе аудита внутреннего я много таких штук накопал. По хорошему везде подложить систему. Чтобы данные рождались в цифре а не заносились потом. Надеюсь выйду на этот уровень с минэком за 2021
Александр, там в выложенном Excel файле настолько очевидные ошибки форматирования, некорректно введённых сведений и всего остального что оцифрованность/не оцифрованность вопрос вторичный. Там нет как минимум "дофинальной проверки" которая могла бы занять не более получаса времени в автоматизированном режиме. Так что я всё понимаю, но в какой-то момент кто-то схалтурил. А то что Вы описываете - да, конечно, методическую часть надо прорабатывать, выяснять как был процесс подготовки устроен и тд.
источник

AM

Aleksandr Maslov in Чат к каналу @begtin
Поработаю над этим:)
источник
2020 June 08

G

Gip24 in Чат к каналу @begtin
Эти деньги и дальнейшие субподрядные контракты можно где-то отследить?

- о выделении Министерству обороны России 1,95 млрд рублей на строительство многофункциональных медицинских центров
http://government.ru/docs/39775/
источник

R

Radjah in Чат к каналу @begtin
Для высших чинов?
источник

AS

Al Sem in Чат к каналу @begtin
Radjah
Для высших чинов?
Корона же
источник

AV

Andrei Vagin in Чат к каналу @begtin
Ivan Begtin
Кстати насчёт глобального игнора, давно хотим проверить насколько работоспособен regulation.gov.ru, посмотреть какие и кто комментарии пишут и какая на них реакция. Тебе парсер регулэйшена не попадался? А то там в открытых данных только реестр проектов НПА, а комментарии и реакцию на них надо из сайта извлекать, а у нас пока до него руки не дошли
Приветствую!
Вопрос по извлечению комментариев актуален?
источник

IB

Ivan Begtin in Чат к каналу @begtin
Andrei Vagin
Приветствую!
Вопрос по извлечению комментариев актуален?
Добрый день. Уже вроде как решаем, спасибо
источник
2020 June 09

NK

ID:0 in Чат к каналу @begtin
В качестве обзора проектов основанных или основывающих среду работы с данными, система NARCIS (Нарцис/Наркис) в Нидерландах [1] существует с 2004 года и объединяет данные практически всех исследовательских центров страны.

Система изначально создавалась как система доступа к научным публикациям, сейчас является системой доступа к данным по результатам исследований.

Основная задача NARCIS - в предоставления доступа к исследованиям, данным по их результатам.

В экосистеме данных в Нидерландах, она обеспечивает возможности поиска и доступа, а вся экосистема состоит из 3-х основных сервисов:
- DataverseNL - публикация данных исследований
- EASY - сервис архивации исследований по их итогам
- NARCIS - поиск и доступ к данным в разрозненных репозиториях

В системе сейчас:
- 2 925 организаций
- 66 173 исследователей
- 71 750 научных исследований
- 266 947 наборов данных
- 2 097 121 публикаций

Проект является продуктом DANS (data archival and networked services) [2], они же создавали около 20 проектов по публикации научных данных в Евросоюзе [3].

Ссылки:
[1] https://www.narcis.nl/?Language=en
[2] https://dans.knaw.nl/en
[3] https://dans.knaw.nl/en/projects

#data #science #opendata
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
источник

NK

ID:0 in Чат к каналу @begtin
Государственная система или реестр без контроля качества данных - это помойка замедленного действия (с)

В который раз слушая сегодня о том как государство выделяет средства на очередную ФГИС, иную ИТ систему, реестр _чего-то там нового_, я не могу не отметить что без нормальной ИТ архитектуры всё это - это преумножение цифрового мусора.

Кроме тех историй о которых много лет, и я, и мои коллеги пишем, про качество данных в Минюсте или в Минэке, не стоит думать что во многих органах ситуация получше.
Вот лишь несколько примеров:
1. Минпросвещения публикует реестры по разным темам (12 файлов за 2 года) в виде PDF сканов и, реже, файлов MS Word. Только с названиями организаций и их адресами, без какой-либо дополнительной идентифицирующей информации.
2. Примерно у 5% организаций на портале ТрудВсем (trudvsem.ru) приведены недостоверные реквизиты в виде кодов ОГРН и ИНН.
3. Более чем у 500 организаций на портале госуслуг Gosuslugi.ru приведены неверные коды ИНН/ОГРН и у неизвестного (но значительного) числа организаций неверные или устаревшие контакты. Неверные реквизиты, в том числе у ФОИВ, например, Росводресурсов
4. Реестр аккредитованных ИТ компаний публикуется так что в поле ОГРН может быть как ОГРН организации, так и ОГРН включая текст о старом коде в случае реорганизации организации. В результате автоматическая загрузка в любую информационную систему потребует ручной/полуручной обработки. И да, около 100 организаций там просто внесены с неверными реквизитами. Интересно как они получают свои льготы?
5. Та же Минцифра не обновляет раздел Открытые данные уже почти 4 года. А какие-либо данные из их ГИСов вообще никогда не публиковались, даже статистика.
6. Похожие проблемы с данными Росздравнадзора и вообще всеми ведомствами.

Это всё помимо, уже привычных проблем, с элементарной доступностью данных которые должны быть доступны.

Главная беда в том что если процесс ведения той или иной базы выстроен неверно изначально, то исправлять это потом очень болезненно.

При этом, я большого секрета не открою, сделать типовое open source ПО для ведения практически любого реестра - несложно. Если реестр "плоский" то даже элементарно, но и даже если к нему привязано несколько понятий (документы, записи, понятия), то и в этом случае - очень просто. Казалось бы, всё это реестростроение, это вторая по популярности деятельность в госаппарате после нормопорождения, но нет, ничего подобного не существует.

Казалось бы такая нужна штука, так почему нет рыночных решений по ведению реестров?

Ситуация, во многом, от:
а) Недостаточной квалификации тех кто за ведение реестров отвечает (до сих пор руководители не понимают что это ИТ задачи).
б) Отсутствия внутренней планки качества во многих организациях.

Публиковать те или иные данные в режиме "и так сойдёт" очень сильно отличается от публиковать в режиме "мы не справляемся, у нас проблемы, помогите нам исправить".
Если первое это от недостатка культуры работы с информацией (к счастью это меняется), то второе это от уважения к аудитории. Этим похвастаться, увы, могут не все(

Ну а самое главное в том что главная причина в низком качестве, не только в государстве, но и в частных компаниях, возникает когда они собираются, но не используются.
Если нет системы поддержки принятия решений, то о качестве данных даже не вспоминают. Если данные портала ТрудВсем никому не нужны, то конечно там будут сплошные ошибки.
Если Минцифра не публикует открытые данные с портала Госуслуг, то конечно там будут ошибки.

Предполагать что данные которые не публикуют "в хорошем качестве и доступны только своим" - это также большое заблуждение. Реальность хуже, реальность прозаичнее.

#data #government
источник

NK

ID:0 in Чат к каналу @begtin
Спасибо Ксении Бабихиной и её коллегам из из Фонд Нужна помощь за их справку [1] по качеству данных в реестре социально ориентированных НКО опубликованном Минэкономразвития 5 июня.

Коллеги использовали наше API проекта "Открытые НКО" [2] которое создавалось какое-то время назад в КГИ,  в начале 2020 года было передано и сейчас поддерживается командой Информационной культуры.

Мы используем данные о НКО в разных проектах. В общественных вроде Открытых НКО и в государственных таких как Госрасходы [3] и наша команда  также отправила коллегам в Минэкономразвития результаты нашего предварительного анализа который где-то процентов на 70% пересекается с анализом проведённым Ксенией.

Очень хорошо что разные команды делают одно общее дело. Мне нравится в проекте "Если быть точным" [4] Фонда что они занимаются верификацией НКО, это важная и непростая работа и то что проверенные ими организации в реестре СО НКО не оказались, это не один, а сотни вопросов к работе Минэкономразвития.

Ссылки:
[1] https://drive.google.com/file/d/1EWRyzxgBpSqx3v9u82_KMM3HNB8-QZlM/view
[2] https://openngo.ru
[3] https://spending.gov.ru
[4] https://tochno.st/nko

#openngo #ngo #opendata #data
источник

ГМ

Григорий Машанов... in Чат к каналу @begtin
ID:0
Государственная система или реестр без контроля качества данных - это помойка замедленного действия (с)

В который раз слушая сегодня о том как государство выделяет средства на очередную ФГИС, иную ИТ систему, реестр _чего-то там нового_, я не могу не отметить что без нормальной ИТ архитектуры всё это - это преумножение цифрового мусора.

Кроме тех историй о которых много лет, и я, и мои коллеги пишем, про качество данных в Минюсте или в Минэке, не стоит думать что во многих органах ситуация получше.
Вот лишь несколько примеров:
1. Минпросвещения публикует реестры по разным темам (12 файлов за 2 года) в виде PDF сканов и, реже, файлов MS Word. Только с названиями организаций и их адресами, без какой-либо дополнительной идентифицирующей информации.
2. Примерно у 5% организаций на портале ТрудВсем (trudvsem.ru) приведены недостоверные реквизиты в виде кодов ОГРН и ИНН.
3. Более чем у 500 организаций на портале госуслуг Gosuslugi.ru приведены неверные коды ИНН/ОГРН и у неизвестного (но значительного) числа организаций неверные или устаревшие контакты. Неверные реквизиты, в том числе у ФОИВ, например, Росводресурсов
4. Реестр аккредитованных ИТ компаний публикуется так что в поле ОГРН может быть как ОГРН организации, так и ОГРН включая текст о старом коде в случае реорганизации организации. В результате автоматическая загрузка в любую информационную систему потребует ручной/полуручной обработки. И да, около 100 организаций там просто внесены с неверными реквизитами. Интересно как они получают свои льготы?
5. Та же Минцифра не обновляет раздел Открытые данные уже почти 4 года. А какие-либо данные из их ГИСов вообще никогда не публиковались, даже статистика.
6. Похожие проблемы с данными Росздравнадзора и вообще всеми ведомствами.

Это всё помимо, уже привычных проблем, с элементарной доступностью данных которые должны быть доступны.

Главная беда в том что если процесс ведения той или иной базы выстроен неверно изначально, то исправлять это потом очень болезненно.

При этом, я большого секрета не открою, сделать типовое open source ПО для ведения практически любого реестра - несложно. Если реестр "плоский" то даже элементарно, но и даже если к нему привязано несколько понятий (документы, записи, понятия), то и в этом случае - очень просто. Казалось бы, всё это реестростроение, это вторая по популярности деятельность в госаппарате после нормопорождения, но нет, ничего подобного не существует.

Казалось бы такая нужна штука, так почему нет рыночных решений по ведению реестров?

Ситуация, во многом, от:
а) Недостаточной квалификации тех кто за ведение реестров отвечает (до сих пор руководители не понимают что это ИТ задачи).
б) Отсутствия внутренней планки качества во многих организациях.

Публиковать те или иные данные в режиме "и так сойдёт" очень сильно отличается от публиковать в режиме "мы не справляемся, у нас проблемы, помогите нам исправить".
Если первое это от недостатка культуры работы с информацией (к счастью это меняется), то второе это от уважения к аудитории. Этим похвастаться, увы, могут не все(

Ну а самое главное в том что главная причина в низком качестве, не только в государстве, но и в частных компаниях, возникает когда они собираются, но не используются.
Если нет системы поддержки принятия решений, то о качестве данных даже не вспоминают. Если данные портала ТрудВсем никому не нужны, то конечно там будут сплошные ошибки.
Если Минцифра не публикует открытые данные с портала Госуслуг, то конечно там будут ошибки.

Предполагать что данные которые не публикуют "в хорошем качестве и доступны только своим" - это также большое заблуждение. Реальность хуже, реальность прозаичнее.

#data #government
замминистры по цифровому развитию могут помочь решить эти задачи? поднять планку требований, вообще понимать, о чем идет речь
источник

IB

Ivan Begtin in Чат к каналу @begtin
Григорий Машанов
замминистры по цифровому развитию могут помочь решить эти задачи? поднять планку требований, вообще понимать, о чем идет речь
Это про культуру работу с данными, да, конечно эти зам министры должны её решать
источник
2020 June 10

AT

Alexander Tyulkanov in Чат к каналу @begtin
ID:60077597
Отрицательные черты во многом присущи и оффлайн голосованию. Разве что утечка ПД чуть более трудоемка, ну так их можно и в других местах брать
Кто-то с техническими познаниями анализировал порядок дистанционного голосования? особенно п. 5.

http://www.cikrf.ru/activity/docs/postanovleniya/46375/ (см. приложение там)

Там написано, что будет использоваться распределённый реестр (вероятно, приватный, конечно). Не очень понятно, на какой инфраструктуре.  Ну и далее всяческие технические подробности.

Насколько порядок с технической точки зрения соответствует лучшим практикам?
источник

N

Nikita in Чат к каналу @begtin
Подскажите плиз сервисы для мониторинга общественно резонансных дел и вопросов. Сейчас вижу много ссылок на чиновников и бизнесменов, которые сбивали людей, был общественный резонанс, а дело в итоге после этого заминали, как и резонанс.

Т.е. чтобы можно было отфильтровать по типу, например, дтп. Или посмотреть ближайшие судебные заседания, если само событие было давно и все забыли. Желательно как Вики, т.е. ссылки на пруфы и обсуждения. А то бывает случилось что-то, фсбшник сбил кого или дом разрушился и началось расследование. И потом не найдешь почти чем закончилось. Кого посадили, кто сколько отсидел.
источник

N

Nikita in Чат к каналу @begtin
Т.е понятно, что гражданские активисты ведут такие базы, но где есть доступ или апи?
источник
2020 June 11

NK

ID:0 in Чат к каналу @begtin
IBM отказались в будущем разрабатывать технологии распознавания по лицам, об этом в письме руководителя IBM Арвинда Кришна в адрес Сената США [1]  . The Verge подробно разобрали ситуацию с применением [2] технологий распознавания лиц и, в том числе, "расовым предубеждением алгоритмов" и злоупотребление полиции использования этой технологии.

Тема слежки полиции за гражданами сейчас будет одной из важнейших в США точно. 12 июня, завтра выходит фильм "Запрограммированное предубеждение" (Coded Bias) [3] за авторством Joy Buolamwini которая когда и обнаружила и описала то что алгоритмы распознавания лиц плохо различают женщин и людей с темным цветом кожи.

На многое ли это повлияет в мире? Пока сложно предсказать. Этих шагов не возникло бы из-за стихийных митингов в США, обвинений полиции в использовании технологий и активизации НКО противодействующих неэтичному использованию ИИ, например, AI Justice United [4] и другие.


Ссылки:
[1] https://www.ibm.com/blogs/policy/facial-recognition-susset-racial-justice-reforms/
[2] https://www.theverge.com/2020/6/8/21284683/ibm-no-longer-general-purpose-facial-recognition-analysis-software
[3] https://www.hrwfilmfestivalstream.org/film/coded-bias/
[4] https://ajlunited.org/

#facialrecognition #ibm #bias #biometrics #ai
источник