Телеграмм чат группы moscowspark страница 537

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 February 05

M

Mi in Moscow Spark

Ну я вот пока думаю какие есть варианты и насколько они дорогие

источник

11:22пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

или это стрим? Тогда так и надо написать, найдутся знающие товарищи. Но для стрима обычно другая проблема - много мелких файлов. Но, поскольку я щас со стримами не работаю, то у меня и проблем этих нет))

источник

11:23пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

и решения с ходу не предложу((

источник

11:24пожаловаться #3

M

Mi in Moscow Spark

Батч

источник

11:24пожаловаться #4

ИК

Иван Калининский... in Moscow Spark

есть один параметр, spark.sql.files.maxRecordsPerFile, мне он не нравится, потому что не даёт использовать параллелизм спарка на всю катушку и может оставлять огрызки. Но в данном случае могу его посоветовать

источник

11:27пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

Батч

всего то надо прикинуть, сколько записей должно быть в файле и захардкодить на первое время, одна строка кода

источник

11:28пожаловаться #6

AB

Andrey Bel in Moscow Spark

Иван Калининский

или это стрим? Тогда так и надо написать, найдутся знающие товарищи. Но для стрима обычно другая проблема - много мелких файлов. Но, поскольку я щас со стримами не работаю, то у меня и проблем этих нет))

я в одном кейсе юзал для стриминга даталейк кажеться от датабрикса и он кучу мелких паркетов делал - потом просто запускал периодами джобу репартишн чтоб там было приемлимое кол во файлов

источник

11:30пожаловаться #7

AB

Andrey Bel in Moscow Spark

а не, дельта лейкс))

источник

11:31пожаловаться #8

M

Mi in Moscow Spark

Иван Калининский

есть один параметр, spark.sql.files.maxRecordsPerFile, мне он не нравится, потому что не даёт использовать параллелизм спарка на всю катушку и может оставлять огрызки. Но в данном случае могу его посоветовать

О, посмотрю, спасибо

источник

11:33пожаловаться #9

NN

No Name in Moscow Spark

Иван Калининский

Я оцениваю исходный объём данных, делаю поправки на исходное сжатие и конечное сжатие и делю на размер блока HDFS. Получается желаемое количество конечных файлов n, далее делаю .repartition(n, expr), где expr - выражение, содержащее n значений, как правило - monotonically_increasing_id() % n.
При этом, конечно, надо учитывать партиционирование конечной таблицы (если есть). Коллизии неизбежны, то есть, какие-то файлы будут примерно в два-три раза больше, чем медианный размер, но их будет немного

Не очень понял, а зачем expr? Ведь желаемое количество файлов n уже указано, дальше repartition(n) сам равномерно нарежет.

источник

11:44пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

Не очень понял, а зачем expr? Ведь желаемое количество файлов n уже указано, дальше repartition(n) сам равномерно нарежет.

Ну, да, это я для партиций с разным количеством файлов

источник

11:45пожаловаться #11

А

Алексей in Moscow Spark

зачем резать на мелкие файлы, если нет бакетирования? спарк при чтений большого паркет файла сам распараллелит чтение

источник

12:16пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

зачем резать на мелкие файлы, если нет бакетирования? спарк при чтений большого паркет файла сам распараллелит чтение

файлы размером 2+ Гб долго записывать. А если найдется 20+ Гб, то ждать невозможно(

источник

12:28пожаловаться #13

А

Алексей in Moscow Spark

Иван Калининский

файлы размером 2+ Гб долго записывать. А если найдется 20+ Гб, то ждать невозможно(

запись - это да, будет долго

источник

12:29пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

вообще, да, замечание логичное

источник

12:29пожаловаться #15

2021 February 06

R

Renarde in Moscow Spark

KrivdaTheTriewe

а как попасть на спарк саммит?

Поднимаю старую тему - «как попасть на саммит докладчиком?».

Открылся Call For Presentations на саммит 2021:

https://databricks.com/dataaisummit/north-america-2021/call-for-presentations

Data + AI Summit NA 2021 - Call for presentations - Databricks

Spark + AI Summit is the largest data and machine learning conference. Join over 50,000 data scientists, engineers and analysts to collaborate at the intersection of data and ML

источник

11:59пожаловаться #16

2021 February 08

K

KrivdaTheTriewe in Moscow Spark

Поднимаю старую тему - «как попасть на саммит докладчиком?».

Открылся Call For Presentations на саммит 2021:

https://databricks.com/dataaisummit/north-america-2021/call-for-presentations

Data + AI Summit NA 2021 - Call for presentations - Databricks

Spark + AI Summit is the largest data and machine learning conference. Join over 50,000 data scientists, engineers and analysts to collaborate at the intersection of data and ML

попробую податься, спасибо

источник

01:43пожаловаться #17

K

KrivdaTheTriewe in Moscow Spark

Ребят, было такое, что пока spark.shuffle.useOldFetchProtocol не выставишь, джоба по другому считает, при этом шафлинг сервиса никакакого не используется

источник

13:21пожаловаться #18

G

Gev in Moscow Spark

Народ. Скорее всего самый распространенный вопрос, но я никак не найду какой то универсальный ответ
Stage 59 contains a task of very large size (129 KB). The maximum recommended task size is 100 KB.
Повышаем количество repartitioning
Но где оно то число ? И как еще моно избавиться от этой ошибки раз и на всегда?

источник

18:50пожаловаться #19

EC

Eugene Chipizubov in Moscow Spark

+1

источник

20:03пожаловаться #20