Size: a a a

2018 December 17
Ivan Begtin
Я напоминаю что завтра Форум перспективных технологий https://tceh.com/events/forum-perspektivnyh-tehnologij/ с двумя площадками Ассоциациb участников рынка данных

Приходите, поговорим про данные, госрегулирование, стандарты и тд.

#data #opendata #bigdata
источник
2018 December 18
Ivan Begtin
В Republic вышла моя статья про законопроект об "изоляции Рунета", хотел написать про технологии, а получилась статья про страх https://republic.ru/posts/92720
источник
2018 December 19
Ivan Begtin
Интересное интервью [1] с Hanna Fry [2], профессором математики в UCL и автором книги "Hello World. Being Human in the Age of Machine". В интервью она говорит о важности аудита алгоритмов и об одном из возможных путей - созданием агентства вроде FDA (Food and Drug Agency - отвечает за тестирование лекарств, его российский аналог Росздравнадзор). Это агентство проверяло бы алгоритмы до того как они использовались бы на людях, сохраняя интеллектуальную собственность создателей, но имея возможность убедиться в недискриминационности алгоритмов.

Как и сама книга "Hello World", её интервью построено не на технических аспектах работы алгоритмов, а на этических и поднимают вопросы, прежде всего, кодификации и проверки моральности алгоритмических решений и ответов на которые мы сами должны найти ответ - готовы ли мы что многие решения в отношении нашей жизни начнут принимать алгоритмы.

Дождёмся ли мы того что решения начнут принимать алгоритмы, а обращение к решению человека будет аппеляцией к решению машины?
Это не только не праздные вопросы про будущее, это ещё и вопросы про настоящее.

Например:
- Готовы ли мы что нам алгоритмы начнут ставить диагноз?
- Готовы ли мы что алгоритмы будут нас судить вместо судей?
- Готовы ли мы что алгоритмы будут принимать решение чью жизнь спасать, пешехода или водителя?

Появление аналога FDA для алгоритмов может оказаться неподъёмной задачей для многих государств, не имея возможности платить экспертам анализирующим алгоритмы зарплаты сравнимые с зарплатами разработчиков алгоритмов можно будет столкнуться с большими сложностями в качестве их оценки. С другой стороны внимание и страхи граждан и регуляторов к тому как алгоритмы оказывают влияние на общество неизбежно приведет к тому что их разработка так или иначе будет подвержена этическим требованиям и их проверке.

Вопрос лишь в том как это будет устроено в итоге.

Ссылки:
[1] http://nautil.us/issue/66/clockwork/we-need-an-fda-for-algorithms
[2] http://www.hannahfry.co.uk/

#data #algorithms
источник
Ivan Begtin
Свежий канадский план по открытости государства, в виде их Национального плана открытости [1]
Многое можно о нём сказать, показательна будет даже его структура, по сути через открытость отражающая приоритеты правительства:
—-
Введение
 Прогресс на текущую дату
 Лидерство Канады в открытости правительств
 От комментариев к обязательствам
 Наши приниципы управления
1. Государство удобное для пользователей
2. Финансовая прозрачность и подотчетность
3. Корпоративная прозрачность
4. Цифровое государство и сервисы
5. Открытая наука
6. Здоровая демократия
7. Доступ к информации
8. Феминистический и инклюзивный диалог
9. Согласованное и открытое правительство
10. Сообщество открытости государства
—-
Сам план представляет Scott Brison, Министр цифрового развития Канады.

Чтобы было понимание как всё устроено - в России национального плана открытости более нет.  Есть планы по другим направлениям, это инициативы вроде программы "Цифровая экономика" и "Цифровое государственное управление".

В чём отличие и особенности канадского плана по открытости от планов по цифровой экономики в России? В том что Канадский план политический, он адресован разным социальным группам и, по сути, он продолжение политических обязательств правительства. Российские программы, практически все что выходили за это время, политическими не являются. В лучшем случае они являются компромиссом и консенсусом групп влияния внутри государства/правительства, но ни в коей мере отражение реальных потребностей общества или, хотя бы, значимых его частей.

Ссылки:
[1]  https://open.canada.ca/en/content/canadas-2018-2020-national-action-plan-open-government

#opengov #opendata #canada
источник
2018 December 22
Ivan Begtin
Apple обновили раздел на сайте их отчёта по прозрачности и теперь предоставляют информацию о том как правительства стран запрашивают у них информацию и о чём именно [1].

Например, с января по июнь 2018 года Российские власти сделали 710 запросов из которых:
- 702 запроса с информацией об устройствах
- 5 запросов о финансовых идентификаторах (кредитные карты, кошельки и тд)
- 3 запроса связанных с аккаунтами, Apple ID и email адресами.
Подробнее на странице отчёта по стране [2]

Что характерно по другим странам - число официальных запросов никак не коррелирует с численностью граждан. Есть ли корреляция с числом айфонов у граждан стран, нужно собирать данные по их использованию.

Напомню что transparency report давно уже стало механизмом общественной ответственности цифровых/электронных/онлайн/IT сервисных компаний. Отчёты по прозрачности есть у Google, Microsoft, Automattic, Oath, Twitter, Proton A.G., Wikimedia, LinkedIn, DropBox, Reddit, Cloudflare, Janssen, Snap, Slack, Pinterest, Digital Ocean, SpiderOak, Amazon, T-Mobile и многие другие.

AccessNow в 2016 году делали обзор компаний публикующих отчёты о прозрачности [3], с тех пор их стало больше и отчёты подробнее.

Ссылки:
[1] https://www.apple.com/legal/transparency/
[2] https://www.apple.com/legal/transparency/ru.html
[3] https://www.accessnow.org/transparency-reporting-index/

#transparency #openness #apple
источник
2018 December 24
Ivan Begtin
Для тех кто умеет создавать инфографику, визуализацию статичную и интерактивную и, конечно же, мечтает о мировой славе до 15 января идёт конкурс
World Data Visualization Prize

Три темы для визуализации:
- The Future Of Government
- What Makes A "Good" Government?
- Smaller? Better? More Productive?

Организаторы собрали много данных по всем 3-м темам по странам для их сравнения [2].

Победитель получает 25 тысяч долларов США

Ссылки:
[1] https://wdvp.worldgovernmentsummit.org
[2] https://docs.google.com/spreadsheets/d/11LhOlwsloUuA495r-04IDwciMqNrLwWGpveqpF61WXU/edit#gid=249389891

#dataviz
источник
Ivan Begtin
Александр Жаров, глава Роскомнадзора, в интервью ТАСС говорит о том что вопрос изоляции Рунета от Интернета не стоит и что это всё про чрезвычайные ситуации [1]. Я ранее уже писал для Republic в статье [2] и повторю сейчас.

Вопросами чрезвычайных ситуаций в России занимается МЧС и Минобороны, особенно МЧС. То о чём Жаров говорит и то что предлагается в законопроекте - это принципиально разные проблемы и решения.

Есть ли риск катастроф? Да, есть. Он решается через георезервирование ЦОДов, сервисов, DNS серверов, организацией большего числа каналов, а самое главное - исследованием и прогнозированием этих самых рисков и разработкой стратегии их предупреждения.

А на практике нам предлагают поставить всем провайдерам DPI устройства, а Роскомнадзору отдать инфраструктуру в управление.

Ну серьёзно, это какое-то невероятное лукавство. Никто не против защищать Рунет от солнечных вспышек, террироистов нарушающих узлы связи, сломанного коммутационного оборудования и даже экскаваторщиков перерубающих провода. Но всё это не требует введения ещё большей слежки за каждым гражданином и ещё большей нагрузки - финансовой и этической на провайдеров.

Ссылки:
[1] https://tass.ru/interviews/5937355
[2] https://republic.ru/posts/92720

#data #privacy
источник
Ivan Begtin
источник
Ivan Begtin
О снижении порога технических навыков для получения данных о госконтрактах (расширение для браузера и телеграм-бот).

Данные о госконтрактах официально публикуются на портале zakupki.gov.ru (и на FTP-сервере ЕИС). Но формат, в котором предоставляются данные на FTP-сервере нельзя назвать удобным и оптимальным.

Проект "Госзатраты" (clearspending.ru) предоставляет еще несколько способов получения данных:

1. можно открыть поиск по контрактам на сайте и скачать контракты, попавшие в выборку (но их число ограничено 500 и в файле ограниченное количество полей).

2. программисты могут использовать API проекта, строить любые выборки и получать данные в режиме реального времени, но для этого нужны технические навыки, которых нет у аналитиков или журналистов.

3. можно скачать файлы с данными из раздела "Открытые данные", то они разбиты только по законам (44, 94 и 223) и годам. Полученные файлы очень большие и обычные программы с ними не справляются.

4. исследователи и НКО могут отправить запрос на получение нужной выборки контрактов (при условии упоминания проекта "Госзатраты" в качестве источника данных).

В этом месяце мы запустили еще три сервиса, снижающих порог технических навыков, требующихся для получения нужной выборки контрактов:

1. Телеграм-бот (@csdownloaderbot). Для получения выборки контрактов пользователю теперь нужно заполнить наш шаблон интересующими его параметрами (регион, ФЗ, даты, суммы, ...), отправить этот файл боту и указать почту, на которую ему придут данные (Подробнее: https://clearspending.ru/news/telegram-bot-dlya-polucheniya-dannyh-o-goskontraktah/).

2. Скрипт для выгрузки данных (преимущества и ссылки на документацию опубликованы тут: https://clearspending.ru/news/telegram-bot-dlya-polucheniya-dannyh-o-goskontraktah/).

3. Расширение для браузера. Если пользователь заходит на сайт организации, являющейся госзаказчиком, то при запуске расширения пользователю отобразится окно, содержащее статистику госзаказа для данной организации. В первой версии расширения содержится информация о 110 тыс. сайтов (bit.ly/clearspending_ext)
источник
2018 December 26
Ivan Begtin
По поводу смены главы Росстата [1], я скажу так. Я ругал Росстат много лет за тому как плохо Росстат работал и работает с данными и, в особенности, формально подходит к их раскрытию, не использует внешние источники данных для проверки своих показателей и, в принципе, там много вопросов по цифрам переписи, доступности данных переписи и принятых ограничениях в статнаблюдении именно с их подачи по которым Росстат отказывался давать, например, муниципальные срезы по переписи.

Но ругать ушедших руководителей после увольнения и хвалить новых - это дурной российский тон которому лично я следовать не собираюсь.

Я бы сказал что у меня к Росстату здесь институциональные претензии, как к органу власти, который, по хорошему, и мог бы отвечать за открытость данных и должен был бы быть основным заказчиком и постановщиком задачи для Национальной системы управления данными.

Какие в итоге произойдут изменения в Росстате в ближайшие годы я не рискну сказать, но могу сформулировать то что я считаю важным и даже необходимым:
1. Формирование системы формирование статистики как часть НСУД или независимо с функцией сбора первичных данных и расчёта показателей на основе данных из государственных информационных систем.
2. Консолидация большого числа ведомственной статистики: Минздрав, МВД, Минобрнауки и всех остальных ведомств.
3. Исследование применимости внешних данных, собираемых не государством, для расчёта ключевых показателей.
4. Приведение в соответствие и достижение достоверности показателей статнаблюдения с показателями по нац. проектам и по госпрограммам.
5. Приведение в соответствие и достижение достоверности показателей статнаблюдения с показателями в программа стратегического планирования
6. Партнёрство с крупнейшими инфраструктурными монополиями по автоматизации и уточнения сбора статистики. Это партнёрство с:
- сотовыми операторами;
- интернет провайдерами;
- банками (и ЦБ);
и тд.
7. Запуск цикла исследований по масштабам, структуре, демографии и иных ключевых характеристиках теневого сектора.
8. Публикация данных переписи и иных показателей в форматах открытых данных. Включая ранее накопленные справочники и тома данных за прошлые годы.

Есть ли что-то из этого на повестке у нового главы Росстата - я не берусь гадать, но надеюсь что есть. Получится ли изменить Росстат и дать ему технологическую опору и при этом обеспечить его независимость и точность измерений? Этот вопрос, к сожалению, не к главе Росстата, а к политическому руководству страны и его готовности к тому чтобы видеть объективную картину.

P.S. В любом случае при смене руководителя ведомства мы в проекте Национальный цифровой архив России [2] проводим архивацию всех онлайн ресурсов этого органа власти и сайты Росстата и его территориальных управлений.

Ссылки:
[1] http://economy.gov.ru/minec/press/news/201824123
[2] https://ruarxive.org/

#opendata #data #rosstat
источник
Ivan Begtin
источник
Ivan Begtin
источник
Ivan Begtin
Вот этот бот (анонс в фэйсбук) [1] мы делали давно и наконец-то сделали к концу года. Он умеет структурировано давать информацию по участию организации в получении госконтрактов и использует только открытое API Госзатрат.

Его можно опробовать по ссылке [2]
А API Госзатрат здесь [3]

В нем немного наших наработок по РобоЖурналистике или РобоАналитике, как не назови. Это самое начальное представление,  того как можно автоматически создавать тексты с описанием, например, организаций. Бот работает очень просто. Ему кидается ИНН и по ИНН он формирует текст рассказывающей о контракт организации. Очень рекомендую тем что ищет ответы на вопросы: "Ты чей?", "Они чьи?", "Она чья?", "А они при ком?" и так далее.

Ссылки:
[1] https://www.facebook.com/clearspending/photos/a.485640574881032/1777006529077757/?type=3&theater
[2] https://t.me/csParticipantStatsBot
[3] https://clearspending.ru/page/for-developers/

#opendata #clearspending #api #bots #telegram
источник
2018 December 27
Ivan Begtin
Когда Рособрнадзор безумствовал и по политическим причинам отзывал лицензии у Шанинки и Европейского университета - это было очень неприятно, для многих оскорбительно и категорически неправильно. Но не было сомнений что решения политические.

Сейчас Рособрнадзор отозвал аккредитацию у ИТМО [1] по среднему образованию. Я даже не могу это решение политическим назвать, оно какое-то инопланетное.

Даже не знаю что хуже. Понятные упыри или безумные.

Ссылки:
[1] http://news.ifmo.ru/ru/education/official/news/8124/

#crazyrussia
источник
2018 December 28
Ivan Begtin
tgstat.ru создали занимательную статистику по моему каналу. Можно сказать что таковы итоги года.
источник
Ivan Begtin
Так сложилось что в телеграме и в других соц сетях я мало что пишу про многие стороны моей работы. Например, мало пишу про то как идёт обучение чиновников по программам CDTO и CDO. Я бы даже сказал незаслуженно мало. Ещё меньше о том что я являюсь председателем экспертного совета по цифровой трансформации при Генеральной прокуратуре. Это общественная работа у которой одна, важнейшая цель, чтобы прокуратура была лидером того что называют цифровой трансформацией, как минимум среди правоохранительных органов, как максимум среди органов власти вообще.

И здесь я хочу обратить внимание на то что уже сейчас у Генеральной прокуратуры есть интерактивный медиа проект "Эфир" [1] где эксперты и сотрудники прокуратуры рассказывают о разных, самых разных темах. В следующем году в нём будет больше про цифровые технологии, про изменения которые переживают правоохранительные системы мира и России.  

Если у Вас есть деятельные идеи как Генеральной прокуратуре лучше подавать свои новости/данные/экспертное мнение и есть темы для экспертов или другие идеи - не стесняйтесь пишите мне.

Ссылки:
[1] http://efir.genproc.gov.ru

#prokuratura
источник
2018 December 29
Ivan Begtin
Данные о федеральных субсидиях, их распределителях и получателях теперь доступны в проекте "Госзатраты".

Госзаказ, данные о котором мы предоставляем с момента запуска проекта Госзатраты, - это лишь один из механизмов распределения бюджетных средств. Другим способом являются субсидии, в которых, в отличие от госзакупок, нет конкуренции, а лишь решение органа власти, Правительства или Президента.

Данные о субсидиях публикуются Минфином России и Федеральным Казначейством в виде “Реестра соглашений о предоставлении субсидий федерального бюджета” на Едином портале бюджетной системы. Открытые данные из этого реестра мы сопоставили с Реестром участников и неучастников бюджетного процесса и на их основе разработали базу данных, которая содержит информацию о субсидиях, распределителях субсидий и получателях. Сегодня мы запускаем бета-тестирование раздела “Субсидии” (https://sub.clearspending.ru) на портале проекта “Госзатраты”. Помимо веб-интерфейса, для журналистов, исследователей и программистов доступны обновляемые дампы базы и API.

На сегодняшний день раздел “Субсидии” содержит данные о: 92 961 субсидии из федерального бюджета; 188 распределителях субсидий; 7 511 получателях субсидий.

Общий объем распределенных субсидий - 15,4 триллиона рублей. Часть этих средств может быть перераспределена получателями в форме госзаказа. К тому же субсидии могут быть многолетними, поэтому часть этой суммы получателям может быть еще не выплачена. Например, Мариинскому театру в 2018 году распределили субсидию размером в 12,2 млрд руб., но только 4 млрд должны были быть выплачены в 2018 году (а фактически перечислено всего 2 млрд руб.).

По причине многолетности и их продления, самые ранние субсидии датированы 1991 и 1995 гг, хотя сам реестр публикуется с 2015 года. С учетом этих и других особенностей подготовка аналитики по субсидиям или их интерпретация требует аккуратности.

Всего (на день обновления базы данных) за 2018 год было распределено 16 826 субсидий, из них 1 611 соглашений о субсидиях на сумму 92,67 млрд руб. были заключены в декабре, а треть этой суммы (33 млрд) была распределена за три рабочих дня последней недели года (с 24 по 26 декабря).

С комментариями, сообщениями об ошибках и предложениями пишите на почту op@clearspending.ru.
источник
2019 January 03
Ivan Begtin
ФНС снова запустила сервис Прозрачный бизнес https://pb.nalog.ru.

Первый запуск был около двух лет назад, тогда сайт проработал пару дней и был закрыт. Данные, на основе которых работает сервис, были опубликованы ФНС в прошлом году в три этапа (https://www.nalog.ru/rn77/news/activities_fts/8165638/). В них содержатся сведения о суммах недоимки и задолженности по налогам и сборам организаций, данные о наличии налоговых правонарушений, сведения о среднесписочной численности работников юр. лиц, данные о специальных налоговых режимах и др. Не все опубликованные в 2018 году наборы данных уже добавлены на сайт "Прозрачный бизнес".

Также на портале "Прозрачный бизнес" есть функция, с помощью которой представитель компании может сообщить об ошибке в данных своей компании, но для этого нужна Электронная подпись. Впрочем, ошибки в данных есть - после публикации данных журналисты и исследователи нашли организации, численность которых, согласно данным, превышает 600 тыс. чел. (https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1). После сообщений СМИ об ошибках в данных, их обновления или исправления не последовало.

Интересно, что на сайте ФНС опубликован внутренний регламент работы с обращениями об ошибках в наборах данных (https://www.nalog.ru/opendata/reglod/) - подобный документ у ФОИВа встречаю впервые. Проверка его работоспособности будет одной из первых задач этого года :).
источник
Ivan Begtin
Европейская сеть дата журналистов опубликовала инструмент поиска по наборам данным [1] и там можно искать более чем 800 тысячам наборов данных из европейских порталов. Например, там есть и данные по России [2], в основном связанные с научными исследованиями.

Ссылки:
[1] https://edp.europeandatajournalism.eu/?language=en
[2] https://edp.europeandatajournalism.eu/?aut_lang=Russia&autocomp=&submit=Search
источник
Ivan Begtin
21 декабря в США через конгресс прошёл законопроект H.R. 4174 [1] Foundations for Evidence-Based Policymaking Act of 2017, частью которого является акт об открытых данных OPEN Government Data Act [2] устанавливающий требования об открытости данных для органов власти США

В законопроекте, кроме всего прочего, есть требования по обязательной инвентаризации данных [3], к назначению Chief Data Officers [4], к совету Chief Data Officers [5] и многое другое, включая разделы по обеспечению конфиденциальности информации в оговоренных случаях, по использованию данных в статистических целях.

Возможно и в России необходим отдельный закон об открытых данных?

Ссылки:
[1] https://www.govtrack.us/congress/bills/115/hr4174
[2] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II&nearest=H8D2D81AC6E884597A02AF3D20D8EAA36
[3] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_d_1_~Q1&nearest=H783AD7BC00DA4CEBB4ED7B2045BCF233
[4] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_e_1_~Q1_3520&nearest=H105FE45A522A481CB3194EE768B05B40
[5] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_f_1_~Q1_3520A&nearest=H4352E953B5D54F8DBC8800DB30D19097

#opendata #opengov
источник