Size: a a a

2020 May 07

M

Mi in Moscow Spark
или что-то в этом роде
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Mi
а вообще может круто было бы сделать хотфикс/варнинг если используемая лямбда захватывает замыкает весь класс, которые не  сериализуемый
это в процессе как раз )
источник

AA

Anton Alekseev in Moscow Spark
Иван Калининский
Прикольно))
Удалось определить функцию или метод датафрейма, который вызывает это исключение?
Так проблема воспроизводится в одних и тех же местах, но с разными ошибками. На одном кластере
java.lang.IndexOutOfBoundsException
, на другом (прод) и локально
org.apache.arrow.vector.util.OversizedAllocationException: Unable to expand the buffer
, и связано с ассиметричными партициями, в результате группировки и отправки в pandas udf. Почему разные ошибки пока не разобрался, но решилось сэмплированием, я думал на кластере тоже было семплирование, но напутал с архивами.
источник

ИК

Иван Калининский... in Moscow Spark
Anton Alekseev
Так проблема воспроизводится в одних и тех же местах, но с разными ошибками. На одном кластере
java.lang.IndexOutOfBoundsException
, на другом (прод) и локально
org.apache.arrow.vector.util.OversizedAllocationException: Unable to expand the buffer
, и связано с ассиметричными партициями, в результате группировки и отправки в pandas udf. Почему разные ошибки пока не разобрался, но решилось сэмплированием, я думал на кластере тоже было семплирование, но напутал с архивами.
Отлично, что решилось.
Кстати, почему семплирование? Можно сделать repartition по какому-то добавленному salt
источник

AA

Anton Alekseev in Moscow Spark
Иван Калининский
Отлично, что решилось.
Кстати, почему семплирование? Можно сделать repartition по какому-то добавленному salt
Ранее в таком случае я пробовал оставлять одну группу (условно user-where-when) (самую жирную), перед группировкой и пандасudf (9 мульенов записей), но даже одна группа не пролазила в 2 гб буфера arrow, а поскольку репартишн в этом случае не поможет, все записи этой группы улетят в пандас.
Поэтому я решил в случае выше (java.lang.IndexOutOfBoundsException) попробовать, сэмплирование как уже делал. Но попробую и репатишн, тут возможно другой случай и это поможет (хотя самая толстая группы 3млн записей, тоже не маленькая)
источник

DC

Dany Chepenko in Moscow Spark
Alexander Fedorov
ну ты в IDEA и запускай тесты, со spark-submit это ты что-то разлетелся
Ну тестами не все можно покрыть. А почему разлетелся?
источник
2020 May 08

K

KrivdaTheTriewe in Moscow Spark
ну кто себе биг дата тулс вкатил?
источник

K

KrivdaTheTriewe in Moscow Spark
что из плюсов
источник

SS

Semyon Sinchenko in Moscow Spark
KrivdaTheTriewe
что из плюсов
Там Zeppelin в нормальной IDE со всей мощью JB анализатора. Огонь тема, если часто приходится Zeppelin использовать
источник

AS

Andrey Smirnov in Moscow Spark
Vitaly Khudobakhshov
Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!
создание/редактирование заголовков в параграфах не работает
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Andrey Smirnov
создание/редактирование заголовков в параграфах не работает
Да, это правда, пока работает только просмотр существующих. Сделаю тикет, если еще нет. Спасибо.
источник

AS

Andrey Smirnov in Moscow Spark
Vitaly Khudobakhshov
Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!
и еще вопрос, как синхронизировать jar? Например у меня добавлены jar для работы с hbase, в zeppeline все ок, в идеи все красным-красно. Эти  библиотеки есть в моем локальном мавене, но это не помогает
источник

EV

Eduard Vlasov in Moscow Spark
Vitaly Khudobakhshov
Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!
не совсем в тему, но очень хочется увидеть там гуй для работы с yarn, типа списка приложений в кластере и возможность выкачать логи
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Andrey Smirnov
и еще вопрос, как синхронизировать jar? Например у меня добавлены jar для работы с hbase, в zeppeline все ок, в идеи все красным-красно. Эти  библиотеки есть в моем локальном мавене, но это не помогает
там есть специальный модуль Zeppelin.... туда можно зависимость добавить
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Eduard Vlasov
не совсем в тему, но очень хочется увидеть там гуй для работы с yarn, типа списка приложений в кластере и возможность выкачать логи
Скоро будет в каком-то виде. В процессе
источник

AS

Andrey Smirnov in Moscow Spark
Vitaly Khudobakhshov
там есть специальный модуль Zeppelin.... туда можно зависимость добавить
спасибо, поищу этого зверя
источник

EV

Eduard Vlasov in Moscow Spark
Vitaly Khudobakhshov
Скоро будет в каком-то виде. В процессе
👍
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Andrey Smirnov
спасибо, поищу этого зверя
Мне даже кажется есть кнопка в тулбаре ноутбука )
источник

AS

Andrey Smirnov in Moscow Spark
Vitaly Khudobakhshov
Мне даже кажется есть кнопка в тулбаре ноутбука )
надо поместить в локальный maven на стороне zeppelin? Или речь про %deb ?
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Andrey Smirnov
надо поместить в локальный maven на стороне zeppelin? Или речь про %deb ?
В тулбаре в IDEA есть кнопка, которая ведёт в настройки модуля, куда можно добавить недостающие зависимости, которые не удалось синхронизировать автоматически из цеппелина
источник