Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.
ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.
Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.
К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].
У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]
Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).
Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.
Ссылки:
[1]
https://t.me/begtin/1925[2]
https://frictionlessdata.io[3]
http://www.researchobject.org/[4]
https://researchobject.github.io/ro-crate/1.0/[5]
http://co.mbine.org/[6]
https://github.com/fair-research/bdbag[7]
https://datatracker.ietf.org/doc/rfc8493/[8]
https://mozillascience.github.io/code-research-object/[9]
https://www.reprozip.org/#opendata #data #standards