Одна из важных областей применения открытых данных - это расследования на открытых источниках информации. Эти расследования используют, обычно, не только открытые данные, но и данные полученные другими путями или общедоступную информацию, не обязательно под свободными лицензиями.
Это направление называется Open Source Intelligence (OSINT) [1] и в последние годы оно особенно активно используется государственными разведслужбами и частными агентствами.
Одни из основных источников информации для расследований являются открытые базы данных. Расследование о "латинице в госзакупках" или "слепых закупках" [2] построено как раз на OSINT.
Аналогично расследования проводят и многие организации занимающиеся публичными расследованиями, вроде OCCRP.
Но не все знают о том как из открытых источников используются скрытые знания.
Например, Justin Seitz, автор блога по автоматизации расследований регулярно пишет про применение баз данных.
Я могу порекомендовать к прочтению, как минимум, две его краткие заметки:
Vacuuming Image Metadata from The Wayback Machine [3] и Using Python to Mine Common Crawl [4]
В первом случае это извлечение метаданных из глобального интернет-архива, а во втором из крупнейшего слепка всех веб-страниц в интернете.
В обоих случаях эти источники данных используются для сокрытия интереса исследователя к объекту исследования. Например, часто чтобы собрать информацию о той или иной организации необходимо провести анализ данных. В этом случае, при использовании открытых источников информации - исследователь может скрыть свой интерес к организации и предотвратить контрмеры.
Извлечение данных из
Archive.org и из Common Crawl - это один из способов подобного сокрытия исследования.
Я не открою большого секрета в том что, иногда, чиновники задающие вопросы "А зачем Вам эти данные? Их же будут использовать против нас" бывают правы. Открытые данные хорошо ложаться в идею сокрытия интереса расследователя от расследуемого. Опубликование данных о госзакупках в России, например, привело к значительному всплеску интереса к публичными расследованиям.
Аналогично и во многих других темах, открытые данные активно применяются для самых разных задач, исследования инфраструктуры, подготовки преступлений и многого другого. В статье "The Dark side of Open Data" [5] Matteo Mauri, Alessio Mulas, Davide Ariu пишут о возможностях применения открытых данных в преступных целях.
Что еще нагляднее видно из их презентации [6].
О чем пишет и Abhinav Biswas в заметке "https://Open Government Data Analysis to retrieve OSINT insights into Critical Infrastructure
security.linkedin.com/pulse/open-government-data-analysis-retrieve-osint-insights-abhinav-biswas" [7]
Такие открытые проекты как Censys [8] с самого начала настроены именно на Open Source Intelligence, равно как и множество других, менее известных открытых баз данных и основанных на них инструментов используются так же.
Открытые данные в мире всегда находятся в противостоянии с приватностью. Например, в соревновании Outbrain click prediction [9] участникам соревнования по анализу данных явным образом запрещается их повторно идентифицировать, проводить реидентификацию.
В Австралии уже рассматривается законопроект об ответственности за реидентификацию анонимизированных данных [10] причем презумпция невиновности в данном случае не действует.
В качестве итога хочу завершить той мыслью что открытость не означает вседозволенность. Если улица открыта для прохода - это не означает что она доступна для того чтобы на ней гадить. В мире где технологии развиваются гораздо быстрее чем отношения в обществе мы очень рискуем оказаться когда забыв о приватности и этике использования больших данных мы столкнемся с тем что открытость в личном станет приглашением к насилию.