Size: a a a

2020 October 30

JF

Jane Frankenstein in Moscow Spark
да
источник

JF

Jane Frankenstein in Moscow Spark
я к тому, что замена finalValue на initialValue дала неправильное значение totalsize
источник

AS

Andrey Smirnov in Moscow Spark
Mi
Так у вас confidence стоит 0, это вообще никаких гарантий не даёт
ничего не меняет
источник

AS

Andrey Smirnov in Moscow Spark
0 я поставил когда прочитал про
If like me you need a single number and not an interval, than you'd better set the confidence to 0 (and thus get a single value for low and high).
источник

M

Mi in Moscow Spark
Ну значит не работает 🤷‍♀ на этом мои полномочия всё
источник

M

Mi in Moscow Spark
Видимо проще ставить обычный count
источник

JF

Jane Frankenstein in Moscow Spark
Mi
Видимо проще ставить обычный count
что я и сделала - ООМ получаю
источник

JF

Jane Frankenstein in Moscow Spark
если разберусь - отпишусь, спасибо всем огромное
источник
2020 October 31

R

Rustam Aikaev in Moscow Spark
Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Rustam Aikaev
Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.
GC одинаковый? Настройки хипа? Количество экзекьюторов?
источник

R

Rustam Aikaev in Moscow Spark
Настройки по умолчанию. На том кластере, где работает экзекьюторов меньше
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Rustam Aikaev
Настройки по умолчанию. На том кластере, где работает экзекьюторов меньше
Тогда надо делать хипдамп и смотреть почему падает. HeapDumpOnOutOfMemoryError
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Rustam Aikaev
Настройки по умолчанию. На том кластере, где работает экзекьюторов меньше
Кстати,а машины одинакового размера? А то по умолчанию хип вычисляется от доступной на машине памяти
источник

R

Rustam Aikaev in Moscow Spark
Беру паузу, в понедельник только смогу посмотреть, спасибо
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Rustam Aikaev
Беру паузу, в понедельник только смогу посмотреть, спасибо
Приходите ещё
источник
2020 November 02

AS

Andrey Smirnov in Moscow Spark
Rustam Aikaev
Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.
500k можно попробовать и забродкастить
источник

AS

Andrey Smirnov in Moscow Spark
Mi
Ну значит не работает 🤷‍♀ на этом мои полномочия всё
причем я не смог найти юнит-тестов на эту функцию (есть только граничные случаи, например когда rdd пуст), где тонко там и рвется
источник

N

Nikolay in Moscow Spark
Rustam Aikaev
Коллеги, спарконосцы, возникла проблема. На кластере запускаю через скалу обычный джойн 3тбайтного файла к файлу с 500к id. Ожидаемый файл где то на 100гб. Но все время падает с out of memory. При этом на другом кластере все прекрасно работает. В чем может быть причина? ОЗУ драйвера уже увеличивал, не помогает.
Вам нужно смотреть на план запроса.
источник

N

Nikolay in Moscow Spark
Он может вам и броадкастит , но не ту таблицу. Скиньте сюда план через pastbin или что то такое
источник

AS

Andrey Smirnov in Moscow Spark
Nikolay
Он может вам и броадкастит , но не ту таблицу. Скиньте сюда план через pastbin или что то такое
как он может бродкастить не ту таблицу, там с другой стороны 3 терабайта
источник