Size: a a a

2021 April 27

AS

Azamat Sultanov in Moscow Spark
Как раз то, что нужно!
источник

Г

Григорий Аксенов... in Moscow Spark
О каких аналитиках речь? Их щас что то много а то😂
источник

ЕГ

Евгений Глотов... in Moscow Spark
Дата, бизнес, системные, не знаю, какие там ещё - все должны знать sql+python, в идеале ещё pyspark)
источник

Г

Григорий Аксенов... in Moscow Spark
У нас с аналитиков только sql требуют, но даже в работе почти не использует его )
Python pyspark  похоже только для тех кто на проектах с хранилищами данных работает, или какие там задачи решать с помощью этого. ?
Просто касательно инженеров данных вопросов нет, но вот что делать аналитику  ? Для ответа на этот вопрос у меня не хватает компетенции ((  мне кажется там какой то пересекающийся  функционал с инженером.
источник

АЖ

Андрей Жуков... in Moscow Spark
нафига системному аналитику питон?
источник

Г

Григорий Аксенов... in Moscow Spark
У нас есть один, он его вместо скуля использует
источник

ЕГ

Евгений Глотов... in Moscow Spark
Чтоб не нанимать 85 аналитиков на каждый чих, а нанять одного, который может делать разные вещи)
источник

АЖ

Андрей Жуков... in Moscow Spark
а нанимается в итоге хрыч
источник

ЕГ

Евгений Глотов... in Moscow Spark
За 850к/сек😆
источник

Г

Григорий Аксенов... in Moscow Spark
Ещё и архитектуру запилить , а то архитектор дорого 😂
источник

ЕГ

Евгений Глотов... in Moscow Spark
Идея для стартапа - нанять сениор архитекторов, которые не знают спарк, успех гарантирован)
источник

АЖ

Андрей Жуков... in Moscow Spark
выглядит как идея для телекома
источник

АЖ

Андрей Жуков... in Moscow Spark
источник

N

Nikita Blagodarnyy in Moscow Spark
ну если они архитекторы кликвью, на что им спарк?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Я всё-таки за то, чтобы архитектор бигдата знал весь зоопарк)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хотя бы представление имел)
источник

ИК

Иван Калининский... in Moscow Spark
Коллеги, кто закапывался в исходники, когда создан FileScanRDD, можно связать размер прочитанных блоков и размер партиций этого RDD? В сорцах я этого не увидел вообще, но может есть какой-то объект, которого я не нашёл, а у него подходящий метод?
источник

ИК

Иван Калининский... in Moscow Spark
Только дописал вопрос и увидел, что в конструкторе val Seq[FilePartition], а у них есть .files.map(_.length). Вопрос снят))
источник

ЕГ

Евгений Глотов... in Moscow Spark
А какой кейс, посчитать, на сколько партиций блок разбивается, или во сколько раз растут данные при чтении из сжатых файлов?
источник

ИК

Иван Калининский... in Moscow Spark
Хочу подтянуть PartitionPruningRDD, побить исходный RDD на Seq[RDD] и делать им repartition по очереди, потому что пару сотен терабайт шафла наш кластер не вытянет
источник