Как человек не только говорящий про открытые данные, но и работающий с ними я могу сказать что, конечно, полнота и качество до сих пор самые критичные проблемы.
Вот важнейшие из них:
1. На многих разделах официальных сайтов и порталах данные не обновляются по 2 года и даже более.
2. Многие данные не содержат полных реквизитов и атрибутов, опубликованы в обрезаном виде. Например, нет кодов ОГРН/ИНН организаций и, в результате, данные по организациям требуют ручного сопоставления.
3. Многие ключевые данные не публикуются. Например, торговые реестры публикуются в открытом доступе далеко не везде, а в машиночитаемом виде так вообще в ограниченном числе регионов. К примеру, в Москве торговый реестр открытыми данными не является, а в Санкт-Петербурге он публикуется на сайте профильного управления в формате Excel
4. Видно что не ведется работа по систематизации данных. В большинстве регионов, ФОИВах и тд, она была проведена пару-тройку лет назад и с тех пор не повторяется. У многих госпорталов есть недокументированное API, или же публикуются открытые данные, но в порталы открытых данных они не включены
5. До сих пор часто проще написать "парсер данных" с веб страниц, чем выгружать их в машиночитаемых форматах в виду ошибок в данных мешающих их разбору.
6. Есть хорошие, но сложные примеры публикации больших наборов данных. Когда организация публикует каждый раз многогигабайтный XML файл полного дампа базы. Это гораздо удобнее чем выгружать парсером сотни тысяч записей, но тяжело в обработке каждый раз разбирать и сопоставлять с прошлой версией.
7. "Кривые API" порталов открытых данных. Большая часть разработчиков порталов пытается подавать их еще и как хранилища и данные загруженные туда, как правило, Заранее приведены в плоскую табличную форму хранимую внутри базы данных и экспортируемую пользователю по запросу. Но сделано это, чаще неудобно. К примеру, API портала открытых данных Санкт-Петербурга
data.gov.spb.ru не синхронизовано с веб-интерфейсом.
Через API можно обращаться к базе данных и получать структуру полей, но там используются внутренние идентификаторы баз данных, а веб интерфейсе есть возможность получить сразу набор данных в форматах для экспорта, но используются другие идентификаторы. В итоге проще разбирать веб-интерфейс
В API
data.mos.ru есть не только ошибки экспорта, но и оно в принципе плохо документировано в части, опять же выгрузки файлов которые у них разделены между выгрузкой через EHD хранилище и ссылками на файлы которые указываются в паспорте набора данных. В паспортах указана только выгрузка данных в ZIP'ованных XLSX файлах.
Эти смысловые и технические нюансы лишь одни из многих, ограничивающих использование данных.
Появление порталов открытых данных и публикации данных вообще лишь отчасти облегчило жизнь тем кто работает с ними, создает собственные проекты, коммерческие и общественные.
Пока я могу сказать что если говорить про объем данных, то в одном только портале
bus.gov.ru Минфина опубликовано больше данных чем на всех порталах открытых данных субъектов федерации вместе взятых
Я считаю что тема открытых данных требует в России перезагрузки. Как и когда, я надеюсь мы узнаем это этой осенью, вне зависимости от того будут ли новости радостные или печальные.
#opendata #opengov