Телеграмм чат группы moscowspark страница 695

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1089 membersпожаловаться на группу

2021 June 10

ИК

Иван Калининский... in Moscow Spark

Коллеги, помогайте! ))
Захотел сделать много мелких бродкастов, чтобы избавиться от SortMergeJoin. Ну, относительно мелких, мож мегабайт по двести, а может и по сотне килобайт. Всего таких бродкастов в запросе бывает около двух тысяч, в конкретном кейсе - пятьсот. Это изменения в данных, тут как повезёт.
Но не взлетело, зависает с постоянно повторяемой ошибкой: WARN TaskMemoryManager: Failed to allocate a page ({тут размер} bytes), try again

источник

18:06пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

Экзекуторам давал по восемь ядер и по 12 Гб+12Overhead, на драйвере 16+12

источник

18:07пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

Юзаю G1GC, с некоторыми настройками, могу скопипастить, если поможет

источник

18:09пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

что еще? Код:

Join(
Filter(partitionFilter, targetTable),
ResolvedHint(
Project(pkAttributes, Filter(diffDelFilter, sourceTable)),
HintInfo(broadcast = true)),
LeftAnti,
Some(joinFilter)
)

источник

18:10пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Это почему? Для scalar удфок не нужен никакой groupby. А датафрейм ты можешь внутри удфки из отдельных series собрать, если уж нужен датафрейм.

источник

18:17пожаловаться #5

ММ

Максим Мартынов... in Moscow Spark

В udf вызывается модель. Они бывают разных типов - бинарная классификация возвращает на 1 строку 1 float, мультиклассовая возвращает на 1 строку N float, по числу категорий. Соответственно, это как минимум несколько столбцов на каждую исходную строку.

источник

18:25пожаловаться #6

ММ

Максим Мартынов... in Moscow Spark

Плюс у нас используется обертка над моделью, которая вместо нескольких столбцов, для каждого класса, генерирует несколько строк с двумя столбцами - название класса и float. Так удобнее работать с изменяющимся числом классов, плюс их можно использовать для партиционирования

источник

18:27пожаловаться #7

ММ

Максим Мартынов... in Moscow Spark

В первом случае scalar еще как-то подходит, т.к. можно вызвать udf несколько раз, хоть это и очень неэффективно с точки зрения ресурсов, потому что будет запущена куча копий модели, на которых будут обрабатываться одни и те же данные. А второй случай ими вообще никак не решить

источник

18:29пожаловаться #8

PK

Pavel Klemenkov in Moscow Spark

Ну так ведь series может и сложный тип содержать, например list. А его уже можно распаковать спарком по индексам. Проблема может быть только в pyarrow, но листы он могет

источник

18:58пожаловаться #9

ММ

Максим Мартынов... in Moscow Spark

explode в плане производительности очень плох

источник

18:59пожаловаться #10

ММ

Максим Мартынов... in Moscow Spark

shuffle занимает гораздо меньше времени, чем эти манипуляции с перепаковкой данных

источник

19:01пожаловаться #11

PK

Pavel Klemenkov in Moscow Spark

Это понятно, я предлагал df.select(df.predictions[1], df.predictions[2]) и т.д. Но если число классов переменное, то не прокатит канеш

источник

19:02пожаловаться #12

ММ

Максим Мартынов... in Moscow Spark

да, переменное

источник

19:03пожаловаться #13

ММ

Максим Мартынов... in Moscow Spark

ну, раз такого способа нет, тогда ладно, будет двойной shuffle

источник

19:03пожаловаться #14

2021 June 11

МК

Михаил Королев... in Moscow Spark

(пардон, если занудство) возвращаясь к теме (сходил на кластер):
- первое приложение делает dfBig.write.format("orc").mode("append").save(TARGET_DIR)
- второе делает readCnt = sparkB.read.format("orc").load(TARGET_DIR).count()
- оба лупят это в бесконечном цикле
Проблем нет, оба чудесно работают и показывают ожидаемые результаты, что не так воспроизвел? (попробую то же с метастором пока кластер держу...)

источник

11:51пожаловаться #15

ПБ

Повелитель Бури... in Moscow Spark

1 процесс saveAsTable(t_ref)
2 процесс читает fg_ref = spark.table(t_ref)

источник

11:54пожаловаться #16

МК

Михаил Королев... in Moscow Spark

это я щас проверю, но - как минимум - если напрямую в файлы, то работает

источник

11:55пожаловаться #17

ПБ

Повелитель Бури... in Moscow Spark

формат snappy parquet

источник

11:56пожаловаться #18

МК

Михаил Королев... in Moscow Spark

с метастором все так же, от формата - поверьте - не зависит (но попробую, ибо не сложно)

источник

12:04пожаловаться #19

A

Alex in Moscow Spark

у вас мод append, то есть докидывает файлы, но старые не удаляет

источник

12:04пожаловаться #20