Телеграмм чат группы moscowspark страница 329

17:10пожаловаться #1

VK

Mi

а вообще может круто было бы сделать хотфикс/варнинг если используемая лямбда захватывает замыкает весь класс, которые не сериализуемый

это в процессе как раз )

17:37пожаловаться #2

AA

Anton Alekseev in Moscow Spark

Иван Калининский

Прикольно))
Удалось определить функцию или метод датафрейма, который вызывает это исключение?

Так проблема воспроизводится в одних и тех же местах, но с разными ошибками. На одном кластере

java.lang.IndexOutOfBoundsException

, на другом (прод) и локально

org.apache.arrow.vector.util.OversizedAllocationException: Unable to expand the buffer

, и связано с ассиметричными партициями, в результате группировки и отправки в pandas udf. Почему разные ошибки пока не разобрался, но решилось сэмплированием, я думал на кластере тоже было семплирование, но напутал с архивами.

Иван Калининский... in Moscow Spark

17:54пожаловаться #3

ИК

Anton Alekseev

Так проблема воспроизводится в одних и тех же местах, но с разными ошибками. На одном кластере

java.lang.IndexOutOfBoundsException

, на другом (прод) и локально

org.apache.arrow.vector.util.OversizedAllocationException: Unable to expand the buffer

, и связано с ассиметричными партициями, в результате группировки и отправки в pandas udf. Почему разные ошибки пока не разобрался, но решилось сэмплированием, я думал на кластере тоже было семплирование, но напутал с архивами.

Отлично, что решилось.
Кстати, почему семплирование? Можно сделать repartition по какому-то добавленному salt

17:56пожаловаться #4

AA

Anton Alekseev in Moscow Spark

Иван Калининский

Отлично, что решилось.
Кстати, почему семплирование? Можно сделать repartition по какому-то добавленному salt

Ранее в таком случае я пробовал оставлять одну группу (условно user-where-when) (самую жирную), перед группировкой и пандасudf (9 мульенов записей), но даже одна группа не пролазила в 2 гб буфера arrow, а поскольку репартишн в этом случае не поможет, все записи этой группы улетят в пандас.
Поэтому я решил в случае выше (java.lang.IndexOutOfBoundsException) попробовать, сэмплирование как уже делал. Но попробую и репатишн, тут возможно другой случай и это поможет (хотя самая толстая группы 3млн записей, тоже не маленькая)

18:06пожаловаться #5

DC

Dany Chepenko in Moscow Spark

Alexander Fedorov

ну ты в IDEA и запускай тесты, со spark-submit это ты что-то разлетелся

Ну тестами не все можно покрыть. А почему разлетелся?

18:58пожаловаться #6

2020 May 08

K

KrivdaTheTriewe in Moscow Spark

ну кто себе биг дата тулс вкатил?

01:02пожаловаться #7

K

KrivdaTheTriewe in Moscow Spark

что из плюсов

01:02пожаловаться #8

SS

Semyon Sinchenko in Moscow Spark

KrivdaTheTriewe

что из плюсов

Там Zeppelin в нормальной IDE со всей мощью JB анализатора. Огонь тема, если часто приходится Zeppelin использовать

11:21пожаловаться #9

AS

Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!

создание/редактирование заголовков в параграфах не работает

12:38пожаловаться #10

VK

создание/редактирование заголовков в параграфах не работает

Да, это правда, пока работает только просмотр существующих. Сделаю тикет, если еще нет. Спасибо.

12:43пожаловаться #11

AS

Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!

и еще вопрос, как синхронизировать jar? Например у меня добавлены jar для работы с hbase, в zeppeline все ок, в идеи все красным-красно. Эти библиотеки есть в моем локальном мавене, но это не помогает

12:47пожаловаться #12

EV

Eduard Vlasov in Moscow Spark

Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!

не совсем в тему, но очень хочется увидеть там гуй для работы с yarn, типа списка приложений в кластере и возможность выкачать логи

12:48пожаловаться #13

VK

и еще вопрос, как синхронизировать jar? Например у меня добавлены jar для работы с hbase, в zeppeline все ок, в идеи все красным-красно. Эти библиотеки есть в моем локальном мавене, но это не помогает

там есть специальный модуль Zeppelin.... туда можно зависимость добавить

12:50пожаловаться #14

VK

Eduard Vlasov

не совсем в тему, но очень хочется увидеть там гуй для работы с yarn, типа списка приложений в кластере и возможность выкачать логи

Скоро будет в каком-то виде. В процессе

12:51пожаловаться #15

AS

там есть специальный модуль Zeppelin.... туда можно зависимость добавить

спасибо, поищу этого зверя

12:52пожаловаться #16

EV

Eduard Vlasov in Moscow Spark

Скоро будет в каком-то виде. В процессе

👍

12:52пожаловаться #17

VK

спасибо, поищу этого зверя

Мне даже кажется есть кнопка в тулбаре ноутбука )

13:29пожаловаться #18

AS

Мне даже кажется есть кнопка в тулбаре ноутбука )

надо поместить в локальный maven на стороне zeppelin? Или речь про %deb ?

13:49пожаловаться #19

VK

надо поместить в локальный maven на стороне zeppelin? Или речь про %deb ?

В тулбаре в IDEA есть кнопка, которая ведёт в настройки модуля, куда можно добавить недостающие зависимости, которые не удалось синхронизировать автоматически из цеппелина