Телеграмм чат группы moscowspark страница 476

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

910 membersпожаловаться на группу

2020 November 02

N

Nikolay in Moscow Spark

как он может бродкастить не ту таблицу, там с другой стороны 3 терабайта

Может там захинтованный запрос или может Спарк по какой причине неправильно размер вычисляет. Как можно быть уверенным , что он броадкастит правильно ,если код пишут люди ;)

источник

12:50пожаловаться #1

AS

Andrey Smirnov in Moscow Spark

он пишет что на одном кластере это работает, на другом нет, 3 тб бродкаста это на каком кластере влезет?

источник

12:51пожаловаться #2

N

Nikolay in Moscow Spark

А может там захинтованный так , что там шафл хэш джойн. Надо смотреть планы в том и другом случае. Сравнить их. Причин много может быть. Потом окажется, что думали одно ,а оказалось другое.

источник

12:52пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

как он может бродкастить не ту таблицу, там с другой стороны 3 терабайта

Бывает такое иногда - есть гигантская таблица и таблица на 100 записей, пишешь броадкаст мелкой таблицы, а он броадкастит большую вместо мелкой

источник

13:17пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

И ничего не работает

источник

13:17пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Приходится только либо резать где-то план запроса (cache(), например), либо отключать броадкаст

источник

13:18пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

Ребята, привет!
Подскажите, пожалуйста, можно ли сделать методом RDD.zipPartitions вот такое:

1. Если принять, что к rdd1 и rdd2 уже применен один и тот же партишенер и выполнен .sortWithinPartitions,
можно ли на этапе .zipPartitions сделать что-то вроде mergeSort, объединить два отсортированных итератора в один отсортированный?
Вот так очень просто: rdd1.zipPartitions(rdd2) { (iter1, iter2) => iter1 ++ iter2 }
но совсем не хочется после сортировки и слияния делать еще одну сортировку

2. Произвести anti join, то есть, сделать примерно так:
def getKey(row: Row) = ???
rdd1.zipPartitions(rdd2) {
(iter1, iter2) => iter1.filterNot( row => iter2map(getKey).toSet.contains(getKey(row)))
}

Буду очень благодарен за конкретные примеры

источник

18:34пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

В инженерский чат закинул этот же вопрос

источник

18:34пожаловаться #8

R

Roman in Moscow Spark

в любом случае если массив уже отсортированный, его сортировка должна быть крайне быстра

источник

19:08пожаловаться #9

2020 November 03

VM

Vladimir Morozov in Moscow Spark

Всем привет, может кто сталкивался, использую Structured Streaming (2.3.0) - метрики (InfluxDbSink) не публикуются куда надо.

Конфигурировании пробовал разные, в том числе вот так:

SparkSession
.builder()
.config("spark.sql.streaming.metricsEnabled",value = true)
.config("spark.metrics.namespace","new_streamer")

Конфигурация Influx есть в кластере и стандартные метрики (batch records, scheduling delay and etc.) успешно отгружаются если применять RDD подход, но с SS никак не могу получить их 🙁

Подскажите куда копать?

источник

13:38пожаловаться #10

M

Mi in Moscow Spark

Vladimir Morozov

Всем привет, может кто сталкивался, использую Structured Streaming (2.3.0) - метрики (InfluxDbSink) не публикуются куда надо.

Конфигурировании пробовал разные, в том числе вот так:

SparkSession
.builder()
.config("spark.sql.streaming.metricsEnabled",value = true)
.config("spark.metrics.namespace","new_streamer")

Конфигурация Influx есть в кластере и стандартные метрики (batch records, scheduling delay and etc.) успешно отгружаются если применять RDD подход, но с SS никак не могу получить их 🙁

Подскажите куда копать?

А попробуйте value="true" (строчкой), вдруг сработает

источник

13:47пожаловаться #11

VM

Vladimir Morozov in Moscow Spark

Сейас проверю

источник

13:48пожаловаться #12

VM

Vladimir Morozov in Moscow Spark

к сожалению не помогло 🙁

источник

14:03пожаловаться #13

VM

Vladimir Morozov in Moscow Spark

может есть какой-то способ проверить что эти метрики собриаются и им проставляется корректный namespace ?

источник

14:11пожаловаться #14

2020 November 06

BG

Bogdan Gromov in Moscow Spark

Всем привет! Может кто-то оперативно подсказать, как в pyspark при записи датафрейма пробрасывать в метаинформацию какую-нибудь строку и как потом её считывать? Что-то вроде description/комментария у колонок, только у всей таблицы.

источник

14:42пожаловаться #15

BG

Bogdan Gromov in Moscow Spark

Нашёл. Делается через:

источник

15:07пожаловаться #16

BG

Bogdan Gromov in Moscow Spark

источник

15:07пожаловаться #17

BG

Bogdan Gromov in Moscow Spark

Может, кому-то тоже будет полезно :)

источник

15:07пожаловаться #18

AA

Anton Alekseev in Moscow Spark

dic... Такого сокращения я не видел еще😂

источник

15:10пожаловаться #19

BG

Bogdan Gromov in Moscow Spark

на leetcode так часто пишут

источник

15:18пожаловаться #20