Для тех кто интересуется как устроено пространство работы с данными (data engineering) то весьма неплохая дорожная карта дата инженерии на Github [1]. Правда, я вот лично, могу сказать что я лично владею в основном другим стеком инструментов да и большинство devops и dataops инженеров тоже, поскольку в реальном мире ты, как правило, совмещаешь очень много ролей и профессий, и лишь немногие очень чётко и узко сфокусированы на развитии только в одном профессиональном направлении.
Что бы я отметил:
- есть очень большая разница в инструментах которые выходят из систем связанных с работой с онлайн пользователями и, например, с инструментами и средой работы с открытыми данными. Системы выходящие из цифровых стартапов почти все заточены на сбор данных систем аналитики, статистики, счетчиков и тд. Они как правило готовые или полуготовые, с кучей интеграций и работой в реальном времени.
- инструменты работающие с открытыми данными куда сложнее, даже если источников относительно немного, всегда есть проблема в том что публикующие данные меняют свои сайты, форматы, схемы предоставления данных. Сами данные публикуются изначально в различных формах. От данных в виде HTML таблиц, то Excel файлов упакованных в RAR или 7z архивы и тд. Есть несколько стартапов которые пытаются гармонизировать данные и решать эту проблему, но не то чтобы очень успешно. Также нет и универсального инструмента по сборке данных (data build tool).
- в принципе, с инструментами беда, особенно для государства. В России 2-3 решения имеющие коммерческую природу и чаще используется стек работы с данными Apache поскольку и Java специалистов много и инструменты вроде Hadoop'а уже входят в программы обучения во многих ВУЗах.
Интересно было бы поговорить о цельных стеках по data engineering в России. Кто какие инструменты использует и для каких задач.
Ссылки:
[1]
https://github.com/datastacktv/data-engineer-roadmap#data #dataengineering