Телеграмм чат группы moscowspark страница 529

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 January 27

ВК

Вячеслав Колосков... in Moscow Spark

добрый день.
имеется pyspark который я запускаю через spark-submit
настройки такие:
.config("spark.driver.memory", "200G")
.config("spark.driver.maxResultSize", "200G")
.config("spark.executor.instances","100")
.config("spark.executor.cores", "3")
.config("spark.executor.memory", "10G")
.config("spark.memory.offHeap.enabled", "true")
.config("spark.memory.offHeap.size", "200G")

два вопроса:
1. В списке задач кластера написано, что Allocated Memory равно примерно 1.6 Tb. Но по моим подсчетам должно быть выделено: 100 * 10G + 200G = 1.2 Tb. Почему выделяется 1.6Tb?
2. Также в списке задач кластера указано Allocated CPU VCores = 101, но я же задал 3 ядра на контейнер? Почему не 301? При этом если провалится Spark UI, то там написано, что на эксзекьютер выделено 3 ядра.

источник

00:43пожаловаться #1

EC

Eugene Chipizubov in Moscow Spark

Вячеслав Колосков

добрый день.
имеется pyspark который я запускаю через spark-submit
настройки такие:
.config("spark.driver.memory", "200G")
.config("spark.driver.maxResultSize", "200G")
.config("spark.executor.instances","100")
.config("spark.executor.cores", "3")
.config("spark.executor.memory", "10G")
.config("spark.memory.offHeap.enabled", "true")
.config("spark.memory.offHeap.size", "200G")

два вопроса:
1. В списке задач кластера написано, что Allocated Memory равно примерно 1.6 Tb. Но по моим подсчетам должно быть выделено: 100 * 10G + 200G = 1.2 Tb. Почему выделяется 1.6Tb?
2. Также в списке задач кластера указано Allocated CPU VCores = 101, но я же задал 3 ядра на контейнер? Почему не 301? При этом если провалится Spark UI, то там написано, что на эксзекьютер выделено 3 ядра.

2. spark.dynamicAllocation.maxExecutors попробуй

источник

09:42пожаловаться #2

AS

Aleksandr Severinov in Moscow Spark

Всем привет!
Кто-то же наверняка проходил путь с прокидыванием метрик стриминговой джобы (spark3, cluster mode) в prometheus + grafana?
Хочется рисовать всё, как во вкладке structured streaming в AM
Нагуглил два пути:
1. Поднять graphite, врубить GraphiteSink в metrics.properties, потом забирать в prometheus/grafana
2. Есть “нативная поддержка prometheus" в третьем спарке.
По второму пути есть вопросы:
Я правильно понимаю, что это просто api, который умеет возвращать метрики в прометеевском формате?
По какому урлу он должен быть доступен? Мб я не шарю, но в доке как-то неочевидно написано

источник

11:28пожаловаться #3

2021 January 28

ПФ

Паша Финкельштейн... in Moscow Spark

https://youtu.be/daXEp4HmS-E

Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks

Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What is the "right" size for your spark partitions and files? Why does a job slow down with only a few tasks left and never finish? Why doesn't adding nodes decrease my compute time?

About: Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform

Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
LinkedIn: https://www.linkedin.com/company/databricks
Instagram: https://www.instagram.com/databricksinc/

источник

10:13пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Паша Финкельштейн

https://youtu.be/daXEp4HmS-E

Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks

Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What is the "right" size for your spark partitions and files? Why does a job slow down with only a few tasks left and never finish? Why doesn't adding nodes decrease my compute time?

About: Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform

Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
LinkedIn: https://www.linkedin.com/company/databricks
Instagram: https://www.instagram.com/databricksinc/

Хороший доклад, его кидали уже несколько раз. Добавить в описалово группы можно

источник

12:05пожаловаться #5

ПФ

Паша Финкельштейн... in Moscow Spark

А вот зачем спарк разрешает делать одинаковые колонки, а потом не разрешает их селектать?

источник

18:26пожаловаться #6

ПФ

Паша Финкельштейн... in Moscow Spark

root
 |-- year: integer (nullable = true)
 |-- genre: string (nullable = true)
 |-- year: integer (nullable = true)
 |-- genre: string (nullable = true)
 |-- count: long (nullable = false)
 |-- year: integer (nullable = true)
 |-- count: long (nullable = true)
 |-- percent: double (nullable = true)

источник

18:27пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

Причём возникают они такие хорошие на каждой аггрегации

источник

18:27пожаловаться #8

NN

No Name in Moscow Spark

Паша Финкельштейн

А вот зачем спарк разрешает делать одинаковые колонки, а потом не разрешает их селектать?

Мне тоже всегда было интересно

источник

18:29пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

Так же: есть ли какой-то нормальный способ аггрегировать без этой херни?

источник

18:30пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

Ну кроме ренеймов, ясен перец

источник

18:30пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

Паша Финкельштейн

Ну кроме ренеймов, ясен перец

по индексу можешь

источник

18:32пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

ну да, тоже некрасиво, но могу

источник

18:32пожаловаться #13

e

er@essbase.ru in Moscow Spark

Паша Финкельштейн

root
 |-- year: integer (nullable = true)
 |-- genre: string (nullable = true)
 |-- year: integer (nullable = true)
 |-- genre: string (nullable = true)
 |-- count: long (nullable = false)
 |-- year: integer (nullable = true)
 |-- count: long (nullable = true)
 |-- percent: double (nullable = true)

на каждую партицию по колонке ?

источник

21:16пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

Паша Финкельштейн

А вот зачем спарк разрешает делать одинаковые колонки, а потом не разрешает их селектать?

Если одинаковые колонки содержатся в полях партиционирования и в файлах данных, то спарк их заселектит, но не даст сохранить в таком же виде, Конечно же, в спарке есть сомнительные решения, с другой стороны, а как еще поступать в библиотеке для любых способов работы с данными?

источник

21:55пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Да не, ребят, ну япросто ною же, всё сделал, всё работает

источник

22:29пожаловаться #16

K

KrivdaTheTriewe in Moscow Spark

Иван Калининский

Если одинаковые колонки содержатся в полях партиционирования и в файлах данных, то спарк их заселектит, но не даст сохранить в таком же виде, Конечно же, в спарке есть сомнительные решения, с другой стороны, а как еще поступать в библиотеке для любых способов работы с данными?

.rdd

источник

22:36пожаловаться #17

K

KrivdaTheTriewe in Moscow Spark

источник

22:36пожаловаться #18

K

KrivdaTheTriewe in Moscow Spark

И все сохраняется

источник

22:36пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

KrivdaTheTriewe

.rdd

Не пробовал, выглядит олдскуλьно хД

И кто после нескольких лет оракла вообще помыслит, что поля в выборке можно назвать одинаково и не получить эксепшен "ambigious column name"? Новому полю - новый алиас и нет проблем

источник

22:48пожаловаться #20