Телеграмм чат группы moscowspark страница 644

У нас с аналитиков только sql требуют, но даже в работе почти не использует его )
Python pyspark похоже только для тех кто на проектах с хранилищами данных работает, или какие там задачи решать с помощью этого. ?
Просто касательно инженеров данных вопросов нет, но вот что делать аналитику ? Для ответа на этот вопрос у меня не хватает компетенции (( мне кажется там какой то пересекающийся функционал с инженером.

источник

14:24пожаловаться #4

АЖ

Андрей Жуков... in Moscow Spark

нафига системному аналитику питон?

источник

14:25пожаловаться #5

Григорий Аксенов... in Moscow Spark

У нас есть один, он его вместо скуля использует

источник

14:27пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Чтоб не нанимать 85 аналитиков на каждый чих, а нанять одного, который может делать разные вещи)

источник

14:27пожаловаться #7

АЖ

Андрей Жуков... in Moscow Spark

а нанимается в итоге хрыч

источник

14:28пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

За 850к/сек😆

источник

14:28пожаловаться #9

Григорий Аксенов... in Moscow Spark

Ещё и архитектуру запилить , а то архитектор дорого 😂

источник

14:29пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Идея для стартапа - нанять сениор архитекторов, которые не знают спарк, успех гарантирован)

источник

14:31пожаловаться #11

АЖ

Андрей Жуков... in Moscow Spark

выглядит как идея для телекома

источник

14:45пожаловаться #12

АЖ

Андрей Жуков... in Moscow Spark

sticker.webp

(7.7 Кб)

источник

14:45пожаловаться #13

Nikita Blagodarnyy in Moscow Spark

ну если они архитекторы кликвью, на что им спарк?

источник

14:51пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Я всё-таки за то, чтобы архитектор бигдата знал весь зоопарк)

источник

14:53пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Хотя бы представление имел)

источник

14:54пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

Коллеги, кто закапывался в исходники, когда создан FileScanRDD, можно связать размер прочитанных блоков и размер партиций этого RDD? В сорцах я этого не увидел вообще, но может есть какой-то объект, которого я не нашёл, а у него подходящий метод?

источник

15:06пожаловаться #17

ИК

Иван Калининский... in Moscow Spark

Только дописал вопрос и увидел, что в конструкторе val Seq[FilePartition], а у них есть .files.map(_.length). Вопрос снят))

источник

15:14пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

А какой кейс, посчитать, на сколько партиций блок разбивается, или во сколько раз растут данные при чтении из сжатых файлов?

источник

15:19пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

Хочу подтянуть PartitionPruningRDD, побить исходный RDD на Seq[RDD] и делать им repartition по очереди, потому что пару сотен терабайт шафла наш кластер не вытянет

источник

15:22пожаловаться #20