Телеграмм чат группы moscowspark страница 620

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1048 membersпожаловаться на группу

2021 April 01

ИК

Иван Калининский... in Moscow Spark

А есть какие-то преимущества в большем количестве файлов на бакет?

Есть, если один файл распухает сверх меры. Надо его разделять, но в таком случае нужен способ сохранять сортировку, чтобы продолжать ей пользоваться. Для алгоритма «хеш по модулю» динамическое изменение бакетов невозможно в принципе

источник

13:35пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

в смысле, нельзя сделать из десяти бакетов пятнадцать, для этого нужно заново пересчитать модули

источник

13:36пожаловаться #2

AS

Andrey Smirnov in Moscow Spark

Иван Калининский

Есть, если один файл распухает сверх меры. Надо его разделять, но в таком случае нужен способ сохранять сортировку, чтобы продолжать ей пользоваться. Для алгоритма «хеш по модулю» динамическое изменение бакетов невозможно в принципе

но можно использовать другие алгоритмы

источник

13:36пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

но можно использовать другие алгоритмы

да))

источник

13:37пожаловаться #4

R

Renarde in Moscow Spark

А как сейчас у дельты с бакетированием? Есть ли возможность дописывать в файлы и сортить внутри, а не делать бесконечные мелкие аппенды?)

в дельте такие же бакеты как в паркете. В OSS можно использовать их, на платформе мы рекомендуем ZORDER BY

OPTIMIZE (Delta Lake on Databricks) | Databricks on AWS

Learn how to use the OPTIMIZE syntax of the Delta Lake SQL language in Databricks to optimize the layout of Delta Lake data (SQL reference for Databricks Runtime 7.x and above).

источник

13:39пожаловаться #5

А

Алексей in Moscow Spark

А есть какие-то преимущества в большем количестве файлов на бакет?

то что не нужен шафл при записи, чтобы мержить файлы в 1

источник

13:43пожаловаться #6

NN

No Name in Moscow Spark

Иван Калининский

Есть, если один файл распухает сверх меры. Надо его разделять, но в таком случае нужен способ сохранять сортировку, чтобы продолжать ей пользоваться. Для алгоритма «хеш по модулю» динамическое изменение бакетов невозможно в принципе

Да, точно, чёт я затупил

источник

13:43пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

Да, точно, чёт я затупил

ну, тут всё неоднозначно, ведь файл можно бы прочитать в несколько секций RDD, и тогда даже очень большой файл может быть не проблемой, а оптимизацией. Но один бакет читается строго в одну секцию RDD, и вот тут же не очень-то получится, если файл дорос до десятка гигов

источник

13:45пожаловаться #8

NN

No Name in Moscow Spark

Иван Калининский

ну, тут всё неоднозначно, ведь файл можно бы прочитать в несколько секций RDD, и тогда даже очень большой файл может быть не проблемой, а оптимизацией. Но один бакет читается строго в одну секцию RDD, и вот тут же не очень-то получится, если файл дорос до десятка гигов

Да, тут без вариантов

источник

13:49пожаловаться #9

2021 April 02

PK

Pavel Klemenkov in Moscow Spark

Вот уж земля квадратная. Купил плитку у ИП Захария )

источник

11:17пожаловаться #10

N

Nikita Blagodarnyy in Moscow Spark

Pavel Klemenkov

Вот уж земля квадратная. Купил плитку у ИП Захария )

ну должна быть хорошая. получше паркета.

источник

11:58пожаловаться #11

PK

Pavel Klemenkov in Moscow Spark

Nikita Blagodarnyy

ну должна быть хорошая. получше паркета.

Лол

источник

12:58пожаловаться #12

AS

Andrey Smirnov in Moscow Spark

Nikita Blagodarnyy

ну должна быть хорошая. получше паркета.

Почему ты так решил, как раз как паркет и будет

источник

13:44пожаловаться #13

N

Nikita Blagodarnyy in Moscow Spark

Почему каталист не может вот это прожевать? Последнюю строку.
Пример синтетический из теста.

import java.time.LocalDateTime
val opd = LocalDateTime.

now

().toString
var myDF =

Seq(opd).toDF("opdt").withColumn("opd",to_timestamp(col

("opdt"))).drop("opdt")
myDF = myDF.withColumn("opday", myDF.selectExpr("to_date(opd) as part")("part"))

источник

22:37пожаловаться #14

Д

Дмитрий in Moscow Spark

Ухты var 👍 а смысл ?

источник

23:09пожаловаться #15

GP

Grigory Pomadchin in Moscow Spark

Ухты var 👍 а смысл ?

никакого, так делать не над

источник

23:13пожаловаться #16

Д

Дмитрий in Moscow Spark

У меня сегодня день мутаций 🤣 пришлось юзать ArrayBuffer, а тут синтетика с var и кучкой присваиваний .

источник

23:16пожаловаться #17

2021 April 04

K

KrivdaTheTriewe in Moscow Spark

Ребя, кто с цепелином в живой природе использует спарк 3.1 ?

источник

00:59пожаловаться #18

ПБ

Повелитель Бури... in Moscow Spark

Vasily Safronov

Ключевое слово "привычки" :))

Мой кейс:
под задачи BI в компании накатал за пару дней витринку, ничего сложного: простые агрегации, конвертация валют и с десяток простых бизнесовых метрик.

Тема настолько зашла, что в течение следующих 1.5 месяцев ко мне почти каждый день приходили и просили добавить "всего лишь ещё один" расчётный показатель. В итоге sql-код стал простынкой из >500 строк, и не смотря на то, что я старался соблюдать принципы модульности с кучей with () as, никто кроме меня и ребят из моей команды, которые приложили руку, разобраться в нём, не то чтобы не может, а просто не хочет.

Пример: понадобилось добавить расчёт кумулятивной суммы метрики. В df это можно сделать просто поменяв sum на cumsum. В sql не так, нужно извращаться. Попробовав наиболее распространённый рецепт - получили падение производительности на 2 порядка. План запроса для такой простыни, как вы понимаете отдаёт другую нечитаемую простыню. На просьбу к нашему dba-щику помочь, он посмотрел на нашу простыню, перекрестился и теперь просто обходит нас стороной.

Каждая новая мелкая доработка стала очень дорогой и стрёмной, почти всегда ломающей, то что уже работало. Продебажить классическими средствами нельзя. Юнит-тестов нет, потому что нет юнитов, короче кошмар.

В итоге застопил все тикеты на доработку и медитативно переписываем всё на df

Тут помогает процедурный подход

Каждый блок это 1 преобразование который порождает новую таблицу
А dataflow решается через airfow

источник

10:55пожаловаться #19

АЖ

Андрей Жуков... in Moscow Spark

KrivdaTheTriewe

Ребя, кто с цепелином в живой природе использует спарк 3.1 ?

А там что-то сломалось относительно 3.0?

источник

11:39пожаловаться #20