Телеграмм чат группы moscowspark страница 536

00:31пожаловаться #1

D

Dmitry in Moscow Spark

спасибо!)

00:31пожаловаться #2

Н

Никита in Moscow Spark

Добрый день, подскажите чо делать, если послендяя таска в app mastere'е выполняется более 20 часов (медиана 15 сек). Я читал про skew join'ы, но у меня даже джоинов нет

13:26пожаловаться #3

A

Alex in Moscow Spark

посмотреть что за таска и где висит

13:27пожаловаться #4

Н

Никита in Moscow Spark

У меня на pyspark rdd, а как я могу узнать, что конкретно там выполняется? Последнее событие в логах stderr 15 чаасов назад

https://kshitij-kuls.com/2019/08/04/setting-up-hadoop-credential-provider-api/

13:29пожаловаться #5

Д

Дмитрий in Moscow Spark

Kshitij Kulshrestha

Setting Up Hadoop Credential Provider API

Today, security is the main concern to everyone and when you product need to be deployed on premises there are few things which need to be provided to our application, a very basic example is datab…

17:56пожаловаться #6

Д

Дмитрий in Moscow Spark

Dmitry

спасибо!)

Посмотри по ссылке, может подойдет метод.

17:57пожаловаться #7

2021 February 05

M

Mi in Moscow Spark

Может кто может подсказать, есть ли способ адекватно контролировать размер файла при записи спарком в партиционированную папку?

10:36пожаловаться #8

AB

Andrey Bel in Moscow Spark

Может кто может подсказать, есть ли способ адекватно контролировать размер файла при записи спарком в партиционированную папку?

я только сравнивал размер примерный датасета , объем папки и исходя из этого делал разное значение партицирования при записи авро

10:44пожаловаться #9

ИК

Может кто может подсказать, есть ли способ адекватно контролировать размер файла при записи спарком в партиционированную папку?

Я оцениваю исходный объём данных, делаю поправки на исходное сжатие и конечное сжатие и делю на размер блока HDFS. Получается желаемое количество конечных файлов n, далее делаю .repartition(n, expr), где expr - выражение, содержащее n значений, как правило - monotonically_increasing_id() % n.
При этом, конечно, надо учитывать партиционирование конечной таблицы (если есть). Коллизии неизбежны, то есть, какие-то файлы будут примерно в два-три раза больше, чем медианный размер, но их будет немного

11:10пожаловаться #10

AB

Andrey Bel in Moscow Spark

Иван Калининский

Я оцениваю исходный объём данных, делаю поправки на исходное сжатие и конечное сжатие и делю на размер блока HDFS. Получается желаемое количество конечных файлов n, далее делаю .repartition(n, expr), где expr - выражение, содержащее n значений, как правило - monotonically_increasing_id() % n.
При этом, конечно, надо учитывать партиционирование конечной таблицы (если есть). Коллизии неизбежны, то есть, какие-то файлы будут примерно в два-три раза больше, чем медианный размер, но их будет немного

Когда пишу авро на hdfs то обычно они ровно размер распределяются

11:15пожаловаться #11

A

Alex in Moscow Spark

потому что авро ты пишешь последовательно

11:16пожаловаться #12

A

Alex in Moscow Spark

в случае же паркета поколоночное хранение ты заранее не можешь сказать как сожмётся

11:16пожаловаться #13

ИК

Может кто может подсказать, есть ли способ адекватно контролировать размер файла при записи спарком в партиционированную папку?

если конечная папка партиционирована, то в выражение я кидаю UDF, в которой есть предрасчитанные количества файлов для каждой партиции. Значения ключей партиционирования конкатенирую в строку через «;»

val parts: Map[String, Int] = {посчитать количество файлов для каждой партиции}
val udfByMap = udf { partColumns: String => parts.getOrElse(partColumns, 1) }

11:17пожаловаться #14

M

Mi in Moscow Spark

Интересный подход, но увы не подходит для моего кейса

11:17пожаловаться #15

ИК

вот примерно так, из трёхсот тысяч файлов 99,8 были в пределах 5% от целевого значения

11:18пожаловаться #16

ИК

Интересный подход, но увы не подходит для моего кейса

А кейс в чём заключается?

11:18пожаловаться #17

M

Mi in Moscow Spark

Иван Калининский

А кейс в чём заключается?

По умолчанию мы льём один файл в париицию, и периодически бывает что этот файл неприлично большой, нужен относительно дешёвый способ его разбить на поменьше файлы в таких случаях

11:20пожаловаться #18

ИК

если это батч, то просто repartition(n) - при этом n всё равно надо предварительно рассчитать

11:21пожаловаться #19

AB

Andrey Bel in Moscow Spark

По умолчанию мы льём один файл в париицию, и периодически бывает что этот файл неприлично большой, нужен относительно дешёвый способ его разбить на поменьше файлы в таких случаях

Может сделать костыль с каунтом, если каун большой то делать партиуий больше,?