Телеграмм чат группы moscowspark страница 475

0 я поставил когда прочитал про
If like me you need a single number and not an interval, than you'd better set the confidence to 0 (and thus get a single value for low and high).

источник

22:56пожаловаться #4

M

Mi in Moscow Spark

Ну значит не работает 🤷‍♀ на этом мои полномочия всё

источник

23:11пожаловаться #5

M

Mi in Moscow Spark

Видимо проще ставить обычный count

источник

23:12пожаловаться #6

JF

Jane Frankenstein in Moscow Spark

Mi

Видимо проще ставить обычный count

что я и сделала - ООМ получаю

источник

23:38пожаловаться #7

JF

Jane Frankenstein in Moscow Spark

если разберусь - отпишусь, спасибо всем огромное

источник

23:38пожаловаться #8

2020 October 31

R

Rustam Aikaev in Moscow Spark

Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.

источник

14:09пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

Rustam Aikaev

Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.

GC одинаковый? Настройки хипа? Количество экзекьюторов?

источник

14:12пожаловаться #10

R

Rustam Aikaev in Moscow Spark

Настройки по умолчанию. На том кластере, где работает экзекьюторов меньше

источник

14:13пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Rustam Aikaev

Настройки по умолчанию. На том кластере, где работает экзекьюторов меньше

Тогда надо делать хипдамп и смотреть почему падает. HeapDumpOnOutOfMemoryError

источник

14:16пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

Rustam Aikaev

Настройки по умолчанию. На том кластере, где работает экзекьюторов меньше

Кстати,а машины одинакового размера? А то по умолчанию хип вычисляется от доступной на машине памяти

источник

14:17пожаловаться #13

R

Rustam Aikaev in Moscow Spark

Беру паузу, в понедельник только смогу посмотреть, спасибо

источник

14:20пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Rustam Aikaev

Беру паузу, в понедельник только смогу посмотреть, спасибо

Приходите ещё

источник

14:26пожаловаться #15

2020 November 02

AS

Andrey Smirnov in Moscow Spark

Rustam Aikaev

Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.

500k можно попробовать и забродкастить

источник

12:32пожаловаться #16

AS

Andrey Smirnov in Moscow Spark

Mi

Ну значит не работает 🤷‍♀ на этом мои полномочия всё

причем я не смог найти юнит-тестов на эту функцию (есть только граничные случаи, например когда rdd пуст), где тонко там и рвется

источник

12:34пожаловаться #17

N

Nikolay in Moscow Spark

Rustam Aikaev

Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.

Вам нужно смотреть на план запроса.

источник

12:43пожаловаться #18

N

Nikolay in Moscow Spark

Он может вам и броадкастит , но не ту таблицу. Скиньте сюда план через pastbin или что то такое

источник

12:44пожаловаться #19

AS

Andrey Smirnov in Moscow Spark

Nikolay

Он может вам и броадкастит , но не ту таблицу. Скиньте сюда план через pastbin или что то такое

как он может бродкастить не ту таблицу, там с другой стороны 3 терабайта

источник

12:49пожаловаться #20