Телеграмм чат группы moscowspark страница 563

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

958 membersпожаловаться на группу

2021 February 15

NN

No Name in Moscow Spark

> И, следовательно, шаффл со спиллом и без отличается только тем, что первый
шафл со спиллом это когда в процессе подготвки файла шафла все настолько большое, что не влезает в память воркера и он спиллит данные на диск. В итоге да, оверхед на I/O в диск получается многократный

Не, вроде же он и не должен целиком влезть, там некий шаффл буфер, который что-то типа 0.2 по-умолчанию от spark.shuffle.memoryFraction, если я ничего не путаю

источник

17:31пожаловаться #1

NN

No Name in Moscow Spark

> больше грузит сеть, так?
а вот сеть по идее тут не аффектит

А, ну, если spill writer и spill reader поднимаются на тех же самых нодах (что более, чем логично), то, да, сетке пофиг должно быть.

источник

17:35пожаловаться #2

N

Nikolay in Moscow Spark

Народ, а кто в кишки лазил, вот помогите понять - происходит вот у нас шаффл. По идее, есть у нас буфер в execution memory, там происходит некий сортинг входной партиции. Далее, по достижении определенного лимита, данные спилятся на диск spill writer-ом в отдельный файл. Допустим, это произошло ещё несколько раз, после чего все прокрутилось, и файлы опять поднимаются в буфер, окончательно сортируются и мерджатся в один файл. Дальше эта шаффлд партиция отправляется на читку spill reader-у, который опять тащит блоки из нее в буфер и проводит похожую с spill writer-ом манипуляцию. Эта каша у меня в голове образовалась после прочтения нескольких разных источников и попытки немного полазить по сырцам. Помогите, пожалуйста, устранить кашу в голове:
1. Если говорить просто про шаффл - он вообще в состоянии произойти только в оперативной памяти, даже если данные входящей партиции помещаются в буфер, или же в любом случае будет промежуточные результаты скидывать на диск?
2. Если будет скидывать на диск все равно - то в чем вообще отличие шаффла со спиллом и без него?
3. Зачем spill reader ещё раз колбасит данные после spill wtiter-а?
4. Куда вообще сохраняет свои промежуточные результаты spill writer и spill reader (и shuffle writer ещё)? На датаноду локально, или в распределенное хранилище?

Там разные есть врайтеры. они по разному работают . https://github.com/nkudinov/apache_spark_pptx/blob/master/Spark_sort2.pptx и https://github.com/nkudinov/apache_spark_pptx/blob/master/Spark_sort5.pptx

nkudinov/apache_spark_pptx

Contribute to nkudinov/apache_spark_pptx development by creating an account on GitHub.

источник

17:35пожаловаться #3

M

Mi in Moscow Spark

А, ну, если spill writer и spill reader поднимаются на тех же самых нодах (что более, чем логично), то, да, сетке пофиг должно быть.

С 1.6 уже нет

источник

17:36пожаловаться #4

M

Mi in Moscow Spark

Там общая память на все и автоматически решает где нужно больше где меньше

источник

17:37пожаловаться #5

NN

No Name in Moscow Spark

Там общая память на все и автоматически решает где нужно больше где меньше

Да, действительно

источник

17:41пожаловаться #6

NN

No Name in Moscow Spark

Почему-то

В смысле, странно, что, имея такой механизм, как спилл, все равно возможен оом?

источник

18:29пожаловаться #7

t

tenKe in Moscow Spark

Nikolay

Там разные есть врайтеры. они по разному работают . https://github.com/nkudinov/apache_spark_pptx/blob/master/Spark_sort2.pptx и https://github.com/nkudinov/apache_spark_pptx/blob/master/Spark_sort5.pptx

nkudinov/apache_spark_pptx

Contribute to nkudinov/apache_spark_pptx development by creating an account on GitHub.

Есть видео доклада этой презы?

источник

18:30пожаловаться #8

А

Алексей in Moscow Spark

Nikolay

Там разные есть врайтеры. они по разному работают . https://github.com/nkudinov/apache_spark_pptx/blob/master/Spark_sort2.pptx и https://github.com/nkudinov/apache_spark_pptx/blob/master/Spark_sort5.pptx

nkudinov/apache_spark_pptx

Contribute to nkudinov/apache_spark_pptx development by creating an account on GitHub.

интересные презентации, поболее бы текста к ним для не совсем понимающих..

источник

18:30пожаловаться #9

А

Алексей in Moscow Spark

В смысле, странно, что, имея такой механизм, как спилл, все равно возможен оом?

реально, кто может рассказать, почему может быть OOM, если есть spill?

источник

18:32пожаловаться #10

NN

No Name in Moscow Spark

интересные презентации, поболее бы текста к ним для не совсем понимающих..

+

источник

18:33пожаловаться #11

M

Mi in Moscow Spark

В смысле, странно, что, имея такой механизм, как спилл, все равно возможен оом?

Я ж сюда со своей проблемой писал на прошлой неделе, окно/джоин по большой грязной патриции -> репартишен -> начинает спилить на диск -> через какое-то время Ярн убивает контейнер по памяти.
--
Вполне возможно что это может быть проблема вообще ярна или какой-то не совсем идеальной конфигурации экщекуторов когда вот чуть чуть не хватает, но тем не менее

источник

18:36пожаловаться #12

NN

No Name in Moscow Spark

Я ж сюда со своей проблемой писал на прошлой неделе, окно/джоин по большой грязной патриции -> репартишен -> начинает спилить на диск -> через какое-то время Ярн убивает контейнер по памяти.
--
Вполне возможно что это может быть проблема вообще ярна или какой-то не совсем идеальной конфигурации экщекуторов когда вот чуть чуть не хватает, но тем не менее

Ну, прикол в том, что есть некий набор достаточно стандартных действий, которые обычно помогают решить такого рода проблему, как ООМ. Поэтому на глубинном уровне, мне кажется, многие не заморачиваться по этому поводу. Я вот периодически по тому или иному поводу начинаю это делать, и, спасибо @tenKe , в этот раз ещё часть алгоритмов работы спарка в голове уложились во что-то более-менее стройное. Но при этом я тоже перестал понимать, в какой же все таки момент спилл не спасает от ООМ. Гипотетически, наверное, у нас есть объем доступной памяти для коров, и если объема памяти на одну корову недостаточно для того, чтобы обработать хотя бы 1 партицию, он не может в такой ситуации спиллить и просит умирает, типа меньше минимальной единицы параллелизма низя. Но гипотеза выглядит говном, т.к. тогда вообще не оч понятно, в каком случае тогда спилл появляется, да и с чего бы ему вдруг не уметь обрабатывать партицию в несколько этапов?

источник

18:45пожаловаться #13

А

Алексей in Moscow Spark

Есть ещё вариант оом по высокому % gc от общего времени

источник

18:49пожаловаться #14

А

Алексей in Moscow Spark

Ну, прикол в том, что есть некий набор достаточно стандартных действий, которые обычно помогают решить такого рода проблему, как ООМ. Поэтому на глубинном уровне, мне кажется, многие не заморачиваться по этому поводу. Я вот периодически по тому или иному поводу начинаю это делать, и, спасибо @tenKe , в этот раз ещё часть алгоритмов работы спарка в голове уложились во что-то более-менее стройное. Но при этом я тоже перестал понимать, в какой же все таки момент спилл не спасает от ООМ. Гипотетически, наверное, у нас есть объем доступной памяти для коров, и если объема памяти на одну корову недостаточно для того, чтобы обработать хотя бы 1 партицию, он не может в такой ситуации спиллить и просит умирает, типа меньше минимальной единицы параллелизма низя. Но гипотеза выглядит говном, т.к. тогда вообще не оч понятно, в каком случае тогда спилл появляется, да и с чего бы ему вдруг не уметь обрабатывать партицию в несколько этапов?

нагуглилось такое, но не уверен на 100%, что все так: https://www.programmersought.com/article/1697871819/
> when calculating the specific usage of memory in the heap, considering the performance and other reasons, Spark currently uses the sampling statistics method to calculate the memory used by the MemoryConsumer, so that the actual usage of the memory in the heap is not particularly accurate. As a result, OOM may be caused by the inability to spill in time

источник

19:34пожаловаться #15

А

Алексей in Moscow Spark

нагуглилось такое, но не уверен на 100%, что все так: https://www.programmersought.com/article/1697871819/
> when calculating the specific usage of memory in the heap, considering the performance and other reasons, Spark currently uses the sampling statistics method to calculate the memory used by the MemoryConsumer, so that the actual usage of the memory in the heap is not particularly accurate. As a result, OOM may be caused by the inability to spill in time

возможно, это действительно так, особенно если есть перекосы. Оценка размера данных сэмплами может дать погрешность
При сортировке проверяется необходимость спила: https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/collection/ExternalSorter.scala#L214
Размер данных оценивается с помощью меньшего от 2 сэмпловых замеров: https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/collection/SizeTracker.scala#L77-L101
На больших массивах оценивается размер от 200 случайных элементов https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/SizeEstimator.scala#L263

источник

23:21пожаловаться #16

2021 February 16

NN

No Name in Moscow Spark

возможно, это действительно так, особенно если есть перекосы. Оценка размера данных сэмплами может дать погрешность
При сортировке проверяется необходимость спила: https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/collection/ExternalSorter.scala#L214
Размер данных оценивается с помощью меньшего от 2 сэмпловых замеров: https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/collection/SizeTracker.scala#L77-L101
На больших массивах оценивается размер от 200 случайных элементов https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/SizeEstimator.scala#L263

Воу. Вот это ты раскопал. Завтра поизучаю)

источник

00:48пожаловаться #17

M

Mi in Moscow Spark

нагуглилось такое, но не уверен на 100%, что все так: https://www.programmersought.com/article/1697871819/
> when calculating the specific usage of memory in the heap, considering the performance and other reasons, Spark currently uses the sampling statistics method to calculate the memory used by the MemoryConsumer, so that the actual usage of the memory in the heap is not particularly accurate. As a result, OOM may be caused by the inability to spill in time

Это кстати действительно может объяснить почему контейнеры убиваются ярном, а не падают сами

источник

00:51пожаловаться #18

AS

Andrey Smirnov in Moscow Spark

возможно, это действительно так, особенно если есть перекосы. Оценка размера данных сэмплами может дать погрешность
При сортировке проверяется необходимость спила: https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/collection/ExternalSorter.scala#L214
Размер данных оценивается с помощью меньшего от 2 сэмпловых замеров: https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/collection/SizeTracker.scala#L77-L101
На больших массивах оценивается размер от 200 случайных элементов https://github.com/apache/Spark/blob/master/core/src/main/scala/org/apache/spark/util/SizeEstimator.scala#L263

я не понял как это работает, зачем проход два раза
// To exclude the shared objects that the array elements may link, sample twice
// and use the min one to calculate array size.
val s1 = sampleArray(array, state, rand, drawn, length)
val s2 = sampleArray(array, state, rand, drawn, length)

источник

09:32пожаловаться #19

А

Алексей in Moscow Spark

я не понял как это работает, зачем проход два раза
// To exclude the shared objects that the array elements may link, sample twice
// and use the min one to calculate array size.
val s1 = sampleArray(array, state, rand, drawn, length)
val s2 = sampleArray(array, state, rand, drawn, length)

тоже не до конца понимаю

источник

09:38пожаловаться #20