Телеграмм чат группы moscowspark страница 260

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 February 14

SS

Semyon Sinchenko in Moscow Spark

Mikhail

Всем привет! Возник вопрос по оптимизации. Как можно повлиять на план запроса, который строит Spark, а именно указать правильный порядок джойна? Знаю, что есть хинты для broadcast join, но у меня ситуация другая. Джойнятся две большие таблицы факта (условно F1 и F2) + каждая из них джойнится на календарь для фильтрации (D). Spark строит план ((F1 broadcast join D) sortmerge join F2) broadcast join D). Вместо того, что вторую таблицу фактов так же предварительно фильтрануть по календарю. Сталкивался кто с таким?

Вроде можно руками все разнести на разные джойны в нужном порядке и чекпойнтов понаставить.

источник

12:58пожаловаться #1

M

Mikhail in Moscow Spark

Теоретически да, но тут запрос пушится в виде реального sql текста и что-то с ним сделать нельзя. Я думал в сторону каких-нибудь магических настроек оптимизатора или сбора статистики, но пока ничего не помогло.

источник

13:04пожаловаться #2

А

Алексей in Moscow Spark

разбить на 2 запроса

источник

13:57пожаловаться #3

D

Dima in Moscow Spark

Select * from
(select * from F1 join D on ...)v1
Join
(select * from F2 join D on ...)v2
On v1... = v2...
Попробуй так, глянь план

источник

16:30пожаловаться #4

2020 February 15

VK

Vasily Kolpakov in Moscow Spark

Mikhail

Всем привет! Возник вопрос по оптимизации. Как можно повлиять на план запроса, который строит Spark, а именно указать правильный порядок джойна? Знаю, что есть хинты для broadcast join, но у меня ситуация другая. Джойнятся две большие таблицы факта (условно F1 и F2) + каждая из них джойнится на календарь для фильтрации (D). Spark строит план ((F1 broadcast join D) sortmerge join F2) broadcast join D). Вместо того, что вторую таблицу фактов так же предварительно фильтрануть по календарю. Сталкивался кто с таким?

Можно попробовать посмотреть на кастомные оптимизации https://www.waitingforcode.com/apache-spark-sql/introduction-custom-optimization-apache-spark-sql/read

Introduction to custom optimization in Apache Spark SQL

In November 2018 bithw1 pointed out to me a feature that I haven't used yet in Apache Spark - custom optimization. After some months consacred to learning Apache Spark GraphX, I finally found a moment to explore it. This post begins a new series about Apache Spark customization and it covers the basics, i.e. the 2 available methods to add the custom optimizations.

источник

10:20пожаловаться #5

M

Mikhail in Moscow Spark

Vasily Kolpakov

Можно попробовать посмотреть на кастомные оптимизации https://www.waitingforcode.com/apache-spark-sql/introduction-custom-optimization-apache-spark-sql/read

Introduction to custom optimization in Apache Spark SQL

In November 2018 bithw1 pointed out to me a feature that I haven't used yet in Apache Spark - custom optimization. After some months consacred to learning Apache Spark GraphX, I finally found a moment to explore it. This post begins a new series about Apache Spark customization and it covers the basics, i.e. the 2 available methods to add the custom optimizations.

Спасибо, посмотрю! В целом если вручную нужным образом переписать запрос или написать последовательность соединений через API, выключив опцию joinReorder, то план строится в лоб и этим можно управлять. Но у меня потребность была в автоматической оптимизации SQL-запроса со стороны Spark на основе собранной статистики (вкл. joinReorder). И этого добиться пока не получается, хотя фича такая есть - spark.sql.cbo.enabled.

источник

17:18пожаловаться #6

N

Nikolay in Moscow Spark

Cbo не для всех случаев работает.

источник

18:38пожаловаться #7

2020 February 17

M

Mikhail in Moscow Spark

Nikolay

Cbo не для всех случаев работает.

Why not?

источник

15:03пожаловаться #8

a

agathis in Moscow Spark

Господа, всем привет. Мне тут достался легаси spark-streaming 1.6 джоб, в нем несколько оригинальных решений.
Оригинальное решение 1: джоб процессит довольно длинный список топиков кафки, на каждый топик эксплицитно создается new Thread на драйвере (в который передается ssc).
Оригинальное решение номер 2: там написана хитрая обвязка, которая хранит оффсеты в Hbase! Целевая кафка была 0.9
В таком вообще был какой-то смысл даже во времена 1.6?

источник

17:25пожаловаться #9

PK

Pavel Klemenkov in Moscow Spark

Господа, всем привет. Мне тут достался легаси spark-streaming 1.6 джоб, в нем несколько оригинальных решений.
Оригинальное решение 1: джоб процессит довольно длинный список топиков кафки, на каждый топик эксплицитно создается new Thread на драйвере (в который передается ssc).
Оригинальное решение номер 2: там написана хитрая обвязка, которая хранит оффсеты в Hbase! Целевая кафка была 0.9
В таком вообще был какой-то смысл даже во времена 1.6?

А джоба в режиме fair scheduler запускается? Иначе от тред пула, как бэ нет толку.

источник

17:37пожаловаться #10

GP

Grigory Pomadchin in Moscow Spark

Господа, всем привет. Мне тут достался легаси spark-streaming 1.6 джоб, в нем несколько оригинальных решений.
Оригинальное решение 1: джоб процессит довольно длинный список топиков кафки, на каждый топик эксплицитно создается new Thread на драйвере (в который передается ssc).
Оригинальное решение номер 2: там написана хитрая обвязка, которая хранит оффсеты в Hbase! Целевая кафка была 0.9
В таком вообще был какой-то смысл даже во времена 1.6?

хранить оффсеты имело смысл да и имеет; когда руками коммит хочется сделать и рекавери сделать с руками записаных оффсетов

источник

17:41пожаловаться #11

a

agathis in Moscow Spark

Grigory Pomadchin

хранить оффсеты имело смысл да и имеет; когда руками коммит хочется сделать и рекавери сделать с руками записаных оффсетов

а вот это разве не коммит "руками"?
(пример из спарковой доки)

stream.foreachRDD { rdd =>
  val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  // some time later, after outputs have completed
  stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
}

в чем вообще смысл хранить оффсет "снаружи" (при том, что хранится не история, а один последний оффсет)

источник

17:47пожаловаться #12

a

agathis in Moscow Spark

Pavel Klemenkov

А джоба в режиме fair scheduler запускается? Иначе от тред пула, как бэ нет толку.

угу, в fair

источник

17:47пожаловаться #13

PK

Pavel Klemenkov in Moscow Spark

угу, в fair

Тогда все ровно

источник

17:47пожаловаться #14

GP

Grigory Pomadchin in Moscow Spark

а вот это разве не коммит "руками"?
(пример из спарковой доки)

stream.foreachRDD { rdd =>
  val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  // some time later, after outputs have completed
  stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
}

в чем вообще смысл хранить оффсет "снаружи" (при том, что хранится не история, а один последний оффсет)

Рекавери делать с него; обычно хранят офсет последний или в зк отдельно или в сторонней базе

источник

17:56пожаловаться #15

GP

Grigory Pomadchin in Moscow Spark

Чекпойнты никто не делает для стримов

источник

17:56пожаловаться #16

PF

Peter Fedosov in Moscow Spark

Чекпоинты по умолчанию нужны для stateful streaming, просто проблемка там в том, что при изменении кодовой базы они невалидны становятся

источник

18:38пожаловаться #17

GP

Grigory Pomadchin in Moscow Spark

Чекпоинты по умолчанию нужны для stateful streaming, просто проблемка там в том, что при изменении кодовой базы они невалидны становятся

именно

источник

18:59пожаловаться #18

2020 February 18

Н

Никита in Moscow Spark

Никто не знает почему pyspark --master local так медленно работает на df.limit(100).

window_spec = Window.partitionBy("domain").orderBy("to")
df = df.withColumnRenamed("@timestamp", "to")
df = df.withColumn("from", F.lag(df["to"], 1).over(window_spec))
df = df.withColumn("minutesdiff", (df["to"].cast("long") - df["from"].cast("long")) / 60)

Вроде lag не самая сложная операция

Попробовал, ничего не изменилось
spark.conf.set("spark.sql.shuffle.partitions", 10)

источник

13:25пожаловаться #19

PK

Pavel Klemenkov in Moscow Spark

Надо в ui смотреть, так непонятно

источник

13:33пожаловаться #20