Size: a a a

2020 October 02

E

Eugene in Moscow Spark
Vladimir Morozov
Без зависимостей на: spark-core, kafka и сейчас еще ищу откуда взять org/apache/kafka/common/protocol/SecurityProtocol - не стартует kafkaTestUtils.setup(). Возможно инфа про это есть где-то в предыдущих частях статей, если так то стоит дать ссылку в туда.

Применяемый в примере кода Utils.deleteRecursively является приватным объектом из внутрянки спарка, то есть доставать этот метод надо тоже через хак, по аналогии с PublicKafkaTestUtils
И это пример всё еще не запустился…

Второй вариант это написать перед примером кода - это просто пример, который показывает базовый принцип но не запускается

Третий вариант, в конце статьи дать ссылку на репозиторий где будут микро-проекты с рабочими примерами - это в разы повысит полезность материала.
Я выдерживал код из рабочих тестов. Но я перепроверю и сделаю репозиторий. Ок, принято.)
источник

E

Eugene in Moscow Spark
Vladimir Morozov
Без зависимостей на: spark-core, kafka и сейчас еще ищу откуда взять org/apache/kafka/common/protocol/SecurityProtocol - не стартует kafkaTestUtils.setup(). Возможно инфа про это есть где-то в предыдущих частях статей, если так то стоит дать ссылку в туда.

Применяемый в примере кода Utils.deleteRecursively является приватным объектом из внутрянки спарка, то есть доставать этот метод надо тоже через хак, по аналогии с PublicKafkaTestUtils
И это пример всё еще не запустился…

Второй вариант это написать перед примером кода - это просто пример, который показывает базовый принцип но не запускается

Третий вариант, в конце статьи дать ссылку на репозиторий где будут микро-проекты с рабочими примерами - это в разы повысит полезность материала.
Мне нравится третий вариант с репозиторием и урезанными примерами.
источник

E

Eugene in Moscow Spark
@greenhost87 @sherman81, скиньте свои креды. Я буду формировать благодарственный лист в презу.
источник

E

Eugene in Moscow Spark
При всем уважении.)
источник

EC

Eugene Chipizubov in Moscow Spark
Leonid
Здравствуйте! Подскажите, пожалуйста, есть ли у спарка какой то способ задать максимальный размер выходных файлов? Пока пользуюсь repartition на число зависящее от количества и размера строк, но это вызывает ощущение костыля.
Если на выходе паркет, не забывайте, что размер будет зависеть от того, как вы уложите данные внутри датафрейма
источник

DG

Denis Gabaydulin in Moscow Spark
Leonid
Здравствуйте! Подскажите, пожалуйста, есть ли у спарка какой то способ задать максимальный размер выходных файлов? Пока пользуюсь repartition на число зависящее от количества и размера строк, но это вызывает ощущение костыля.
Когда я пару лет эту проблему пытался решить, она была неразрешима в один шаг. Только с дополнительным шагом репартишена.
То есть подбирался estimation по формуле (average output / required size). Или тупо из статистики. Затем, если блоки были больше чем required size или меньше чем max(required_size, min_threshold) тогда происходил репартишн результата.
Это фундаментально непростая проблема. Во время вычисления не известно какого размера будет результат (потому что даже если знать все типы и кол-во строке, а это обычно не известно до последнего), то есть еще формат данных, у которого свои 100500 оптимизаций типа энкодинга и сжатия. Можно было бы писать последовательно, в один поток, но это не то что хочется получить от массивно параллельной системы вычислений.
источник

DG

Denis Gabaydulin in Moscow Spark
Некоторые походят с другой стороны. С точки зрения файловой системы - файл один. Внутри он побит на блоки оптимального размера самостоятельно, самой файловой системой.
источник

EC

Eugene Chipizubov in Moscow Spark
Чот никто не говорит, что если зашафлишь данные размер пухнет на структурированных данных, бывает что на порядок.

Потом читаешь заново, что такое паркет и осознаешь почему.

Затем изобретение калькулятора для размера файла становиться тривиальной задачей.
источник

GP

Grigory Pomadchin in Moscow Spark
Bakhruz Dzhafarov
А я правильно понял из вчерашнего доклада, что котлин и спарк это проблема курицы и яйца - пока не будет много юзеров, официально язык не добавят, а пока его не добавят, естественно, широко он распространён не будет? Или же есть какие-то обходные пути, например, большое желание датабрикс добавить поддержку
мне кажется правильным будет как раз не добавлять в репу Спарка ещё один язык (в принципе)
источник

GP

Grigory Pomadchin in Moscow Spark
сейчас вот к примеру Р усложняет им жизнь; может тож выкинут (не найду ишщу но где-то была в жире или мкйлинг листе)
источник

PK

Pavel Klemenkov in Moscow Spark
Grigory Pomadchin
сейчас вот к примеру Р усложняет им жизнь; может тож выкинут (не найду ишщу но где-то была в жире или мкйлинг листе)
Реально неясно, нахер R нужен в спарке.
источник

ME

Mikhail Epikhin in Moscow Spark
Pavel Klemenkov
Реально неясно, нахер R нужен в спарке.
ну прост у кого-то много легаси кода, а переписывать нет ресурсов
источник

АЖ

Андрей Жуков... in Moscow Spark
Pavel Klemenkov
Реально неясно, нахер R нужен в спарке.
для всяких хардкорных сотонистов!
источник

GP

Grigory Pomadchin in Moscow Spark
ну да там суть что много поддерживать сразу замедляет релизы; жава + скала идеально было бы, питон требует бизнес так что тоже ясно зачем он
источник

GP

Grigory Pomadchin in Moscow Spark
все остальное отдельно проще поселить)
источник

PK

Pavel Klemenkov in Moscow Spark
Андрей Жуков
для всяких хардкорных сотонистов!
Хардкорный сатанист требует цсвшку на вход. А уж спарковскую джобу, которая ее готовит, можно и на скале написать ))
источник

GP

Grigory Pomadchin in Moscow Spark
блин а вы будете смеяться был у меня один случай когда клиенты хотели все на R
источник

GP

Grigory Pomadchin in Moscow Spark
Сервер там, обработку чего-то
источник

GP

Grigory Pomadchin in Moscow Spark
ну и спарки ровые
источник

GP

Grigory Pomadchin in Moscow Spark
я даж удивился какая там экосистема
источник