Size: a a a

2019 December 26

DZ

Dmitry Zuev in Moscow Spark
Ярн
источник

K

KrivdaTheTriewe in Moscow Spark
Grigory Pomadchin
если у тебя нет зависимости на какойниьудь емр то зачем тебе 2.11? но даже емр 6.0 уже на 2.12
пока есть зависимость на то что  на джупитере 2.11
источник

K

KrivdaTheTriewe in Moscow Spark
но я часть пайпалйнов планирую обновить в феврале
источник

K

KrivdaTheTriewe in Moscow Spark
Может даже сразу на 2.13 если норм сборки будут
источник

GP

Grigory Pomadchin in Moscow Spark
KrivdaTheTriewe
Может даже сразу на 2.13 если норм сборки будут
это ты к тому, что только через пол года - год обновлять все будешь?
источник

K

KrivdaTheTriewe in Moscow Spark
Grigory Pomadchin
это ты к тому, что только через пол года - год обновлять все будешь?
нет конечно, это итеративный процесс
источник
2019 December 27

M

Mikhail in Moscow Spark
Всем привет! Недавно тут обсуждали чтение из Терадаты Спарком. Вопрос такой - а запись в несколько экзекьюторов в Терадату кому-нибудь приходилось организовывать или это гиблое дело? У меня все в блокировках повисает периодически, потом понемногу разгребается, но очень долго.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Mikhail
Всем привет! Недавно тут обсуждали чтение из Терадаты Спарком. Вопрос такой - а запись в несколько экзекьюторов в Терадату кому-нибудь приходилось организовывать или это гиблое дело? У меня все в блокировках повисает периодически, потом понемногу разгребается, но очень долго.
Гиблое дело
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно руками сделать запись параллельно в несколько таблиц, а потом слить результаты уже внутри самой терадаты
источник
2019 December 28

С

Сюткин in Moscow Spark
Mikhail
Всем привет! Недавно тут обсуждали чтение из Терадаты Спарком. Вопрос такой - а запись в несколько экзекьюторов в Терадату кому-нибудь приходилось организовывать или это гиблое дело? У меня все в блокировках повисает периодически, потом понемногу разгребается, но очень долго.
Таблица мультисет или сет?
Юзай tdch заливка в Терадату больших данных занимает минуты
источник

M

Mikhail in Moscow Spark
Мультисет. Tdch умеет паркетные файлы грузить в TD?
источник

С

Сюткин in Moscow Spark
Mikhail
Мультисет. Tdch умеет паркетные файлы грузить в TD?
Да
источник
2020 January 10

AA

Anton Alekseev in Moscow Spark
Привет. Было у кого такое?
pyarrow.lib.ArrowIOError: read length must be positive or -1
. Судя по https://issues.apache.org/jira/browse/ARROW-4890 падает в pandas udf из-за слишком большого количества данных. Кто как фиксил? Избавляться от udf на таком большом массиве или как предлагают в треде пересобрать arrow (Хотя у нас emr, это скорее всего не вариант).
источник

PK

Pavel Klemenkov in Moscow Spark
Anton Alekseev
Привет. Было у кого такое?
pyarrow.lib.ArrowIOError: read length must be positive or -1
. Судя по https://issues.apache.org/jira/browse/ARROW-4890 падает в pandas udf из-за слишком большого количества данных. Кто как фиксил? Избавляться от udf на таком большом массиве или как предлагают в треде пересобрать arrow (Хотя у нас emr, это скорее всего не вариант).
Если дело реально в объеме данных, то можно батч для arrow уменьшить через spark.sql.execution.arrow.maxRecordsPerBatch
источник

AA

Anton Alekseev in Moscow Spark
Я так понял там переполнение инта, судя по треду в жире.
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Если дело реально в объеме данных, то можно батч для arrow уменьшить через spark.sql.execution.arrow.maxRecordsPerBatch
Ааа, понял, окей, можно попробовать
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Если дело реально в объеме данных, то можно батч для arrow уменьшить через spark.sql.execution.arrow.maxRecordsPerBatch
Не помогает, к сожалению. Судя по треду жиры, это проблема не батчей а буфера, который на 2гб.
источник

PK

Pavel Klemenkov in Moscow Spark
Anton Alekseev
Не помогает, к сожалению. Судя по треду жиры, это проблема не батчей а буфера, который на 2гб.
Буфер на 2 ГБ - это не максимальный ли размер партиции в Спарке?
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Буфер на 2 ГБ - это не максимальный ли размер партиции в Спарке?
источник

AA

Anton Alekseev in Moscow Spark
Но ошибка у arrow вылетает.
источник