Size: a a a

2018 February 02
Ivan Begtin
Почувствуйте разницу это когда почти одновременно пишешь представителю Мэрии Москвы по поводу отсутствия RSS лент на сайте www.mos.ru и в Яндекс чтобы они добавили экспорт новостей в каналы в Яндекс.Дзен, например, нет RSS ленты у моего канала https://zen.yandex.ru/id/5a315e1300b3dd77beb64261. На сайте Мэрии Москвы в итоге RSS ленты уже есть, а от Яндекса приходит ответ через 21 день о том что добавить RSS ленты в Дзен очень сложно и они даже не могут сказать когда они это сделают и сделают ли.

Проблема всех digital компаний пытающихся замкнуть экосистему на себя в том что они стараются не отдавать данные.

Точно также поступают Google и Facebook, не отдавая экспорт публикаций для подписки. Для Google Plus даже есть отдельный сервис https://gplusrss.com/

#opendata #rss #data
источник
2018 February 03
Ivan Begtin
Термин дня - это weaponized disclosure (вооружённое раскрытие информации), то как называют раскрытие меморандума республиканцев о спецслужбах администрацией Дональда Трампа. Об этом пишут Sunlight Foundation [1] и пишут не в первый раз, ранее об этом они писали в марте 2017 года [2] обвиняя Трампа в раскрытии информации связанной с его политическими противниками, но не государства в целом.

Ссылки:
[1] https://sunlightfoundation.com/2018/02/02/what-trumps-release-of-the-memo-tells-us-about-transparency-in-dc/
[2] https://sunlightfoundation.com/2017/03/22/weaponized-disclosure-must-not-erode-public-trust-in-government/

#opendata #opengov
источник
Ivan Begtin
Economist Business Unit выпустили очередной индекс демократий за 2017 год [1].  Его также можно увидеть на карте [2]. Индекс использовался Open Government Partnership для оценки стран кандидатов.

В этом индексе демократий (Democracy Index) Россия заняла 135 место (между Руандой и Зимбабве) со следующими баллами:
- Electoral process and pluralism - 2.17
- Functioning of government - 1.79
- Political participation - 5.0
- Political culture - 2.5
- Civil liberties - 4.41
Общее число баллов: 3.17

Беларусь идёт на 138 месте с 3.13 баллами

Обратите внимание на крайне низкие оценки Political Culture - хуже чем в России по этому критерию обстоят дела только в Северной Корее 1.25 балла и ровно такое же в Зимбабве 2.5 балла.

Низкая оценка Functioning of government в 1.79 балла - выше чем только у двух постсоветских стран - Таджикистана и Туркменистана, но хуже чем у Узбекистана.

Лично я не хочу вдаваться сейчас в дискуссию насколько индекс объективен/не объективен. Как минимум в части функционирования государства я могу сказать что у нас с этим, действительно, дела обстоят плохо, однако он показывает другой важный индикатор - восприятие России в мире.

Ссылки:
[1] https://www.eiu.com/topic/democracy-index
[2] https://infographics.economist.com/2018/DemocracyIndex/

#opengov
источник
Ivan Begtin
источник
2018 February 04
Ivan Begtin
В индексе Rule of Law Index [1] проекта World of Justice Россия занимает 89'е место по итогам оценки за 2017 год.

Много это или мало? Если сравнивать с равными странами из Upper Middle Income (с доходами выше среднего на жителя), то Россия на 32 месте из 36. Это больше чем у Турции, но меньше чем у Ботсваны - и та и та страны входящие в эту группу.

Вглядевшись в оценки и, конечно, в профиль России [2] можно ещё немало интересного найти.

Например, в части открытости государства Россия на 69-й позиции, что немного, не слишком мало. Хуже чем у всех стран ОЭСР, но чуть обгоняет несколько стран G20.

А вот в части фундаментальных прав человека Россия на 95-м месте и ключевое тут это право на приватность "Right to privacy" оценённое в 1.9 балла и по этому признаку Россия 6-я с конца (107 место).

Близко ли это к правде? Да, очень близко. Проблема ведь не в только во вмешательстве государства в частную жизнь, цифровую и реальную, проблема в отсутствии надзора за тем как это происходит.

Ну и конечно не могу не отметить качественную визуализацию индекса.

Ссылки:
[1] http://data.worldjusticeproject.org/#
[2] http://data.worldjusticeproject.org/#/groups/RUS

#opendata #opengov #indexes
источник
Ivan Begtin
источник
Ivan Begtin
источник
Ivan Begtin
источник
2018 February 05
Ivan Begtin
Наш проект "Национального цифрового архива" http://ruarxive.org создан для сохранения цифрового наследия, ценных/важных/полезных цифровых ресурсов которые теряются из-за того что проекты перестают финансировать, организации закрывают, катастрофы и аварии уничтожают данные, вирусы стирают важные материалы и так далее. Огромные объёмы данных не только создаются, но и исчезают ежедневно.

Сейчас в рамках архива мы собрали такие архивы как:
- сайты крупных закрытых корпоративных проектов таких как: Галактика Интел и Сеть творческих учителей Microsoft
- сайты кандидатов на выборные должности
- сайты ликвидированных банков
- сайты расформированных органов власти
- сайты действующих организаций и проектов находящихся в зоне риска
и многое другое.

Все архивы сохраняются в специальных форматах.
- веб сайты в формате .warc, это специальный формат для веб-архивов
- твиты в формате json файлов
- открытые данные/базы данных - в первоначальном виде

Всё собранное доступно онлайн для выгрузки любым желающим.

Это небольшой некоммерческий проект, на сегодняшний день, не имеющей институциональной поддержки, и поддерживаемый нашими собственными силами в АНО "Информационная культура".

В текущей форме он не требует от нас значительных усилий и главная помощь которую мы всегда запрашиваем от сообщества - это сообщать о рисках уничтожения/исчезновения ценных онлайн ресурсов для их архивации. Например, так сейчас архивируются все сайты кандидатов в Президенты РФ и будут архивироваться сайты органов власти когда они будут расформировываться в следующем правительстве.

Этот проект всегда курировал я лично и в текущей его форме я смогу продолжить это делать.Однако эта форма - это форма "лёгкого проекта", не автоматического, не с постоянной коммуникацией с сообществом и тд. Если превращать его в полноценный - поставив архивацию на поток, обеспечив ежедневный сбор ресурсов, выстраивая отношения с партнерами и занимаясь фандрайзингом, то проекту нужен руководитель.

По своему опыту могу сказать что гораздо важнее в этом проекте не технологии, технически он вполне понятный, а именно в понимании приоритетов архивации и того какой аудитории какие ресурсы важно сохранять. Тут важнее коммуникативные и смысловые навыки чем технические.

Поскольку я сам в этом году запускаю и так 2 больших проекта на которые будут уходить значительные мои ресурсы сил и времени, то я плохо гожусь на роль перестройки цифрового архива под большой проект.

Поэтому у нас глобальный такой запрос есть. Поиск человека которому это было бы ценностно близко, но заинтересованного в том чтобы заниматься этим не за зарплату, а, в том числе, активно занимаясь фандрайзингом. Возможно его поиск займёт ещё немало времени, но тут и нет большой спешки.

В качестве резюме
Уже сейчас проект может помочь Вам в сохранении ценных онлайн ресурсов. Достаточно лишь написать о том что необходимо сохранить

Любые идеи и предложения пишите не стесняясь мне на ibegtin@infoculture.ru или в телеграм ibegtin.

#digitalpreservation
источник
2018 February 06
Ivan Begtin
Обратите внимание на рассылку Инфокультуру https://mailchi.mp/c51d2ea8f9b6/33?e=eaa22949ba

уже 33-я и всё нарастает. Во первых на неё можно подписаться нажав на кнопку "Subscribe" по ссылке, а во вторых можно для неё присылать материалы.

#opendata #opengov #infoculture
источник
2018 February 08
Ivan Begtin
Проект Censys [1] собравший огромную базу данных по всем IP адресам, доменам, SSL/TLS сертификатом и выступавший одним из крупнейших порталов раскрытия данных в сетевой безопасности эволюционировал в стартап с коммерческим ценником [2] и акцентом на работу через API.

Такое развитие проекта было неизбежно, поддержание инфраструктуры требовало больших средств, а сами данные и сервис анализа совершенно точно были коммерчески востребованными.

Теперь если Вам нужны большие наборы данных в области безопасности, то необходимо, либо писать им письмо и объяснять какие ценностные результаты принесёт Ваше исследование и доказывать что оно некоммерческое, либо использоватьс данные с проекта Scans.io [3] который также поддерживает команда Censys и в котором кроме их данных собрано много данных других исследователей.

Обратите внимание на объёмы. Результаты сканирования всех подсетей интернета, например, в Rapid7 DNS Reverse [4] это файлы по 19 гигабайт в сжатом виде и многократно больше в распакованном. Общий объём опубликованного там измеряется в сотнях терабайт в распакованном виде, если не больше. Что делает этот репозиторий открытых данных одним из крупнейших в мире (если не сравнивать с очень крупными научными репозиториями вроде данных адронного коллайдера).

Один из примеров использования этих данных - это система Pulse в США с помощью которой в GSA отслеживают внедрение SSL/TLS на государственных сайтах [5], как раз они использовали Censys и Rapid7 Reverse DNS data.

Ссылки:
[1] https://censys.io/
[2] https://censys.io/pricing
[3] http://scans.io
[4] https://scans.io/study/sonar.rdns_v2
[5] https://pulse.cio.gov/https/guidance/

#opendata #opengov
источник
Ivan Begtin
Новые методрекомендации Росстата по формированию агрегированных показателей доходов, расходов и потребления домашних хозяйств оказывается включают такой важный показатель как 12.2.0.0.0 "Проституция".
источник
Ivan Begtin
источник
Ivan Begtin
источник
Ivan Begtin
источник
2018 February 11
Ivan Begtin
Очень интересная систематизированная статья "Большой брат под кожей: как Китай выводит слежку на генетический уровень" [1] вышла на Carnegie.ru за авторством Леонида Ковачича. Всем кто ещё недостаточно параноит о существующих и потенциальных возможностях государств собирать информацию о гражданах и перестраивать общественный порядок - определённо стоит прочитать.

В статье есть несколько важных моментов, которые были ранее не то чтобы неизвестны, но не столь явно поименованы:
- установка сотен миллионов камер перестало быть невыполнимой задачей. Судя по китайским планам - столько их и будет и это только в Китае
- данные ДНК позволяют через родственников искать преступников. Тотальный сбор образцов ДНК, например, у школьников позволит раскрывать очень старые преступления, через поиск родственников в ближайших поколениях
- на системы тотального контроля есть явный спрос во многих странах. В первую очередь в целях борьбы с преступностью и созданию систем pre-crime. Этот спрос китайцы вполне успешно закрывают своими решениями.
- на примере Тибета и Синцзяня можно увидеть что системы тотального мониторинга + системы организации сотрудников полиции работают очень эффективно
- бюджет Китая на внутреннюю безопасность составлял 938 миллиардов юаней (146 миллиардов долларов) в 2015 году [2]

Каковы перспективы подобных технологий в России? В России есть программа Безопасный город весьма далёкая от китайских проектов, и по масштабу, и по системности подхода. Главный барьер во внедрении подобного - это общее низкое качество государственного управления.  

Ссылки:
[1] http://carnegie.ru/commentary/75492
[2] https://www.bloomberg.com/news/articles/2018-01-17/china-said-to-test-facial-recognition-fence-in-muslim-heavy-area

#privacy
источник
Ivan Begtin
Где прочитать про открытые данные, большие данные и технологии в Телеграме

Про данные
@urbandata - городские данные от Андрея Кармацкого. Много про то как работают с данными в городской среде
@Persdata - канал о персональных данных, последние новости и события
@dataleak - тоже про персональные данные, но теперь уже про их утечки
@ai_machinelearning_big_data - канал про большие данные и машинное обучение. Похоже что скорее новостной чем авторский
@just_data_science - дано не обновлявшийся, но интересный канал по data science


Визуализация
@data_publication - дата публикации от Андрея Дорожного, многое про дата журналистику
@mapporn - визуализация данных на картах в примерах
@Infographicru - инфографика, в том числе инфографика на данных
@mapsanddata - карты и данные

#data #channells
источник
Ivan Begtin
В блоге Open Data Charter пост [1] со множеством примеров того какой экономический и социальный эффект даёт публикация данных как открытых данных. Почти все примеры из государственного сектора - где данные создаются на средства налогов и должны быть общественным достоянием.


Ссылки:
[1] https://medium.com/@opendatacharter/examples-of-how-open-data-can-improve-public-sector-performance-1b80a1522dbe

#opendata #opengov
источник
Ivan Begtin
CivicScape [1] - это один из немногих успешных pre-crime сервисов основанных на большом количестве данных от полиции и властей территорий и помогающих оценить наиболее криминальные территории.  

В отличие от других подобных проектов таких как PredPol и Hunchlab они делают то что не делает никто из них - они открывают исходный код алгоритмов используемых для оценки криминальности/опасности районов [2].

Ссылки:
[1] https://www.civicscape.com/
[2] https://github.com/CivicScape/CivicScape/

#opendata #opengov #precrime
источник
2018 February 12
Ivan Begtin
Журналистика данных - это не только публикации с графиками, группы журналистов расследователей, но и нарастающее число стартапов в этой области с главной специализацией в визуализации данных без программирования.

Свежие и состоявшиеся сервисы:
- Flourish Studio [1] - открылся 1 февраля [2] и позволяет делать сложные интерактивные визуализации и, пожалуй, наиболее интересный по возможностям на сегодняшний момент
- Datwrapper [3] - позволяет создавать простые графики и карты с данными, встраиваемые в страницы
- Datamatic [4] - проект по созданию интерактивной визуализации, был создан в рамках Google Digital News Initiative
- Infogram [5] - один из наиболее закрепившихся стартапов позволяющих создавать инфографику без программирования и встраивать в свои публикации
- Quadrigram [6] - делает акцент не только на визуализации, но и на презентациях и историях рассказываемых онлайн.
- Onodo [7] - пока ещё бесплатный сервис публикации сетевых графов

Всё это онлайн сервисы имеющие бесплатные аккаунты и продающие агентствам и ньюсрумам возможность делать white-label визуализации уже в рамках платных тарифов.

В отличие от open source проектов они не требуют каких-либо существенных технических навыков для работы и гораздо больше подходят для "быстрой журналистики данных".
 
Ссылки:
[1] https://flourish.studio/
[2] https://flourish.studio/2018/02/01/flourish_public_launch/
[3] https://www.datawrapper.de/
[4] http://datamatic.io/
[5] https://infogram.com/
[6] http://www.quadrigram.com/
[7] https://onodo.org/

#opendata #dataviz
источник