Телеграмм чат группы moscowspark страница 412

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 July 22

A🦕

Alexander Rodionov 🦕... in Moscow Spark

скорее всего да, но тут зависит от того чего хотели добиться в итоге

делал repartition чтобы одна партиция была примерно 100к строк чтобы паралельно делать вычисления в ней (xgboost)

а когда 37 - слишком огромные партиции, долго считается
и другие ноды "простаивают"

источник

15:35пожаловаться #1

PK

Pavel Klemenkov in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

проверил, 300 файлов)
тоесть делать repartition при каждом чтении?
ну .persist можно

Если у тебя меньше 300 ядер под джобу то 300 партиций не особо помогут

источник

15:36пожаловаться #2

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Pavel Klemenkov

Если у тебя меньше 300 ядер под джобу то 300 партиций не особо помогут

300 имеются)

источник

15:36пожаловаться #3

PK

Pavel Klemenkov in Moscow Spark

Ну тогда repartition сделать имеет смысл

источник

15:37пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Хотя, зависит от размера файлика опять же

источник

15:37пожаловаться #5

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Pavel Klemenkov

Ну тогда repartition сделать имеет смысл

просто мне нужно несколько раз (десятки) перезапускать на разных параметрах и считать
и каждый раз shuffle происходит долгий во время repartition
пробывал .persist(StorageLevel.MEMORY_AND_DISK) после repartition делать
но он его как то сбрасывает этот кэш и все равно долго считается
наверное стоит еще .checkpoint() попробывать

источник

15:40пожаловаться #6

AS

Andrey Smirnov in Moscow Spark

Pavel Klemenkov

Если у тебя меньше 300 ядер под джобу то 300 партиций не особо помогут

может у него потом партиция в память не влезает, вот и хочет уменьшить.
хотя лучше конечно уменьшить количество значков в никнайме :)

источник

15:40пожаловаться #7

NN

No Name in Moscow Spark

а файлов у вас 300 появляется? Спарк не дает гарантий что прочитается ровно столько же, сколько записалось

А можно чуть подробнее, как это вообще работает? Как спарк определяет, сколько файлов при чтении получится, и зачем вообще он меняет из количество?

источник

15:46пожаловаться #8

M

Mi in Moscow Spark

А можно чуть подробнее, как это вообще работает? Как спарк определяет, сколько файлов при чтении получится, и зачем вообще он меняет из количество?

Это вам уже надо читать документацию к конкретному источнику данных и как он работает

источник

15:49пожаловаться #9

BG

Bogdan Gromov in Moscow Spark

⎡300 / 40⎤ = 8, ⎣300 / 8⎦= 37

источник

15:49пожаловаться #10

NN

No Name in Moscow Spark

Это вам уже надо читать документацию к конкретному источнику данных и как он работает

А источник данных тут причем, если я не по jdbc их вычитываю откуда-то, а речь об уже предварительно сохранённой спарком таблички с указанием конкретного количества партиций ? Файликов же в хдфс физически 300 в данном кейсе, с чего вдруг при чтении их трансформировать в 47?

источник

15:52пожаловаться #11

PK

Pavel Klemenkov in Moscow Spark

А источник данных тут причем, если я не по jdbc их вычитываю откуда-то, а речь об уже предварительно сохранённой спарком таблички с указанием конкретного количества партиций ? Файликов же в хдфс физически 300 в данном кейсе, с чего вдруг при чтении их трансформировать в 47?

Вообще при чтении из HDFS, в общем случае, создается столько партиций, сколько HDFS-блоков. Какого размера файлик в среднем?

источник

15:54пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Разные файлы мелкие ещё и мёрджиться могут в один инпут сплит

источник

15:55пожаловаться #13

NN

No Name in Moscow Spark

Евгений Глотов

Разные файлы мелкие ещё и мёрджиться могут в один инпут сплит

От формата зависит?

источник

15:58пожаловаться #14

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Pavel Klemenkov

Вообще при чтении из HDFS, в общем случае, создается столько партиций, сколько HDFS-блоков. Какого размера файлик в среднем?

проверил размеры файлов - примерно одинаковые, маленьких нет
(это размер в байтах)

формат snappy.parquet

источник

15:59пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

проверил размеры файлов - примерно одинаковые, маленьких нет
(это размер в байтах)

формат snappy.parquet

https://kb.databricks.com/execution/increase-tasks-per-stage.html#:~:text=When%20data%20is%20read%20from,in%20the%20notebook%20with%20spark.

Increase the number of tasks per stage — Databricks Knowledge Base

Learn how to increase the number of tasks per stage when using the spark-xml package with Databricks.

источник

16:02пожаловаться #16

PK

Pavel Klemenkov in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

проверил размеры файлов - примерно одинаковые, маленьких нет
(это размер в байтах)

формат snappy.parquet

В смысле нет? Там средний размер около 10 метров. Это, скорее всего, в 10 раз меньше HDFS блока

источник

16:03пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Можно попробовать вот этот параметр уменьшить, размер инпутсплита, тогда будет больше тасков

источник

16:03пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Pavel Klemenkov

В смысле нет? Там средний размер около 10 метров. Это, скорее всего, в 10 раз меньше HDFS блока

Но непонятно, почему 37 партиций, а не 30 или не 29, например)

источник

16:03пожаловаться #19

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Pavel Klemenkov

В смысле нет? Там средний размер около 10 метров. Это, скорее всего, в 10 раз меньше HDFS блока

понял, я думал маленькие по сравнению с другими а не просто маленькие
тогда становится яснее

источник

16:04пожаловаться #20