Телеграмм чат группы moscowspark страница 460

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 October 02

E

Eugene in Moscow Spark

Vladimir Morozov

Без зависимостей на: spark-core, kafka и сейчас еще ищу откуда взять org/apache/kafka/common/protocol/SecurityProtocol - не стартует kafkaTestUtils.setup(). Возможно инфа про это есть где-то в предыдущих частях статей, если так то стоит дать ссылку в туда.

Применяемый в примере кода Utils.deleteRecursively является приватным объектом из внутрянки спарка, то есть доставать этот метод надо тоже через хак, по аналогии с PublicKafkaTestUtils
И это пример всё еще не запустился…

Второй вариант это написать перед примером кода - это просто пример, который показывает базовый принцип но не запускается

Третий вариант, в конце статьи дать ссылку на репозиторий где будут микро-проекты с рабочими примерами - это в разы повысит полезность материала.

Я выдерживал код из рабочих тестов. Но я перепроверю и сделаю репозиторий. Ок, принято.)

источник

13:50пожаловаться #1

E

Eugene in Moscow Spark

Vladimir Morozov

Без зависимостей на: spark-core, kafka и сейчас еще ищу откуда взять org/apache/kafka/common/protocol/SecurityProtocol - не стартует kafkaTestUtils.setup(). Возможно инфа про это есть где-то в предыдущих частях статей, если так то стоит дать ссылку в туда.

Применяемый в примере кода Utils.deleteRecursively является приватным объектом из внутрянки спарка, то есть доставать этот метод надо тоже через хак, по аналогии с PublicKafkaTestUtils
И это пример всё еще не запустился…

Второй вариант это написать перед примером кода - это просто пример, который показывает базовый принцип но не запускается

Третий вариант, в конце статьи дать ссылку на репозиторий где будут микро-проекты с рабочими примерами - это в разы повысит полезность материала.

Мне нравится третий вариант с репозиторием и урезанными примерами.

источник

13:51пожаловаться #2

E

Eugene in Moscow Spark

@greenhost87 @sherman81, скиньте свои креды. Я буду формировать благодарственный лист в презу.

источник

13:52пожаловаться #3

E

Eugene in Moscow Spark

При всем уважении.)

источник

13:54пожаловаться #4

EC

Eugene Chipizubov in Moscow Spark

Здравствуйте! Подскажите, пожалуйста, есть ли у спарка какой то способ задать максимальный размер выходных файлов? Пока пользуюсь repartition на число зависящее от количества и размера строк, но это вызывает ощущение костыля.

Если на выходе паркет, не забывайте, что размер будет зависеть от того, как вы уложите данные внутри датафрейма

источник

14:34пожаловаться #5

DG

Denis Gabaydulin in Moscow Spark

Здравствуйте! Подскажите, пожалуйста, есть ли у спарка какой то способ задать максимальный размер выходных файлов? Пока пользуюсь repartition на число зависящее от количества и размера строк, но это вызывает ощущение костыля.

Когда я пару лет эту проблему пытался решить, она была неразрешима в один шаг. Только с дополнительным шагом репартишена.
То есть подбирался estimation по формуле (average output / required size). Или тупо из статистики. Затем, если блоки были больше чем required size или меньше чем max(required_size, min_threshold) тогда происходил репартишн результата.
Это фундаментально непростая проблема. Во время вычисления не известно какого размера будет результат (потому что даже если знать все типы и кол-во строке, а это обычно не известно до последнего), то есть еще формат данных, у которого свои 100500 оптимизаций типа энкодинга и сжатия. Можно было бы писать последовательно, в один поток, но это не то что хочется получить от массивно параллельной системы вычислений.

источник

14:41пожаловаться #6

DG

Denis Gabaydulin in Moscow Spark

Некоторые походят с другой стороны. С точки зрения файловой системы - файл один. Внутри он побит на блоки оптимального размера самостоятельно, самой файловой системой.

источник

14:43пожаловаться #7

EC

Eugene Chipizubov in Moscow Spark

Чот никто не говорит, что если зашафлишь данные размер пухнет на структурированных данных, бывает что на порядок.

Потом читаешь заново, что такое паркет и осознаешь почему.

Затем изобретение калькулятора для размера файла становиться тривиальной задачей.

источник

14:46пожаловаться #8

GP

Grigory Pomadchin in Moscow Spark

Bakhruz Dzhafarov

А я правильно понял из вчерашнего доклада, что котлин и спарк это проблема курицы и яйца - пока не будет много юзеров, официально язык не добавят, а пока его не добавят, естественно, широко он распространён не будет? Или же есть какие-то обходные пути, например, большое желание датабрикс добавить поддержку

мне кажется правильным будет как раз не добавлять в репу Спарка ещё один язык (в принципе)

источник

14:49пожаловаться #9

GP

Grigory Pomadchin in Moscow Spark

сейчас вот к примеру Р усложняет им жизнь; может тож выкинут (не найду ишщу но где-то была в жире или мкйлинг листе)

источник

14:49пожаловаться #10

PK

Pavel Klemenkov in Moscow Spark

Grigory Pomadchin

сейчас вот к примеру Р усложняет им жизнь; может тож выкинут (не найду ишщу но где-то была в жире или мкйлинг листе)

Реально неясно, нахер R нужен в спарке.

источник

14:50пожаловаться #11

ME

Mikhail Epikhin in Moscow Spark

Pavel Klemenkov

Реально неясно, нахер R нужен в спарке.

ну прост у кого-то много легаси кода, а переписывать нет ресурсов

источник

14:51пожаловаться #12

АЖ

Андрей Жуков... in Moscow Spark

Pavel Klemenkov

Реально неясно, нахер R нужен в спарке.

для всяких хардкорных сотонистов!

источник

14:51пожаловаться #13

GP

Grigory Pomadchin in Moscow Spark

ну да там суть что много поддерживать сразу замедляет релизы; жава + скала идеально было бы, питон требует бизнес так что тоже ясно зачем он

источник

14:51пожаловаться #14

GP

Grigory Pomadchin in Moscow Spark

все остальное отдельно проще поселить)

источник

14:52пожаловаться #15

PK

Pavel Klemenkov in Moscow Spark

Андрей Жуков

для всяких хардкорных сотонистов!

Хардкорный сатанист требует цсвшку на вход. А уж спарковскую джобу, которая ее готовит, можно и на скале написать ))

источник

14:52пожаловаться #16

GP

Grigory Pomadchin in Moscow Spark

блин а вы будете смеяться был у меня один случай когда клиенты хотели все на R

источник

14:52пожаловаться #17

GP

Grigory Pomadchin in Moscow Spark

Сервер там, обработку чего-то

источник

14:52пожаловаться #18

GP

Grigory Pomadchin in Moscow Spark

ну и спарки ровые

источник

14:52пожаловаться #19

GP

Grigory Pomadchin in Moscow Spark

я даж удивился какая там экосистема

источник

14:53пожаловаться #20