Size: a a a

2020 May 05

DZ

Dmitry Zuev in Moscow Spark
Using the AWS Glue Data Catalog as the Metastore for Spark SQL - Amazon EMR
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html
источник

DZ

Dmitry Zuev in Moscow Spark
А в чем проблема?
источник

GT

Gennady Timofeev in Moscow Spark
Так это для емр инстанса?
источник

GT

Gennady Timofeev in Moscow Spark
имелся ввиду именно локальный спарк на своём ноуте
источник
2020 May 07

AK

Alena Korogodova in Moscow Spark
ммм, боты выходят на новый уровень
источник

С

Сюткин in Moscow Spark
@pomadchin я в комбоботе выставил ограничение для новых пользователей отправлять картинки и ссылки на 3 дня, спамеры отвалились, сделай у себя также

Выдай бан парню выше
источник

С

Сюткин in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Комбот захотел денег и отключился. Надо бы снова подключить
источник

AA

Anton Alekseev in Moscow Spark
Ребят, привет. Кто-то сталкивался с таким на pyspark
java.lang.IndexOutOfBoundsException: index: 0, length: 1073741824 (expected: range(0, 0))
. Раздебажить не могу, куда копать, направьте плиз.
источник

AA

Anton Alekseev in Moscow Spark
Память на экзекьюторах увеличивал, партиций больше выставлял, сэмплирование добавлял, не обошёл.
источник

ИК

Иван Калининский... in Moscow Spark
Anton Alekseev
Ребят, привет. Кто-то сталкивался с таким на pyspark
java.lang.IndexOutOfBoundsException: index: 0, length: 1073741824 (expected: range(0, 0))
. Раздебажить не могу, куда копать, направьте плиз.
Прикольно))
Удалось определить функцию или метод датафрейма, который вызывает это исключение?
источник

AA

Anton Alekseev in Moscow Spark
Иван Калининский
Прикольно))
Удалось определить функцию или метод датафрейма, который вызывает это исключение?
Что именно в даге вызывает падение не нашёл пока, но ясно понятно вылетает после экшона. Причем, интересно что это кластер, на локальной машинке такого нет. единственное различие в запусках, что на кластере есть асинхронный аплоадер на s3 и в базу, я уж думаю может в этой части затык😐
источник

R

Roman in Moscow Spark
Ну и наверное различие в данных?
источник

AA

Anton Alekseev in Moscow Spark
Roman
Ну и наверное различие в данных?
Пайплайны на которых выскакивает данное сообщение, используют одни данные что в кластере что локально
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!
источник

DC

Dany Chepenko in Moscow Spark
привет! подскажите, а как правильно в  IntelliJ IDEA дебажить spark приложение, чтобы можно было  breakpoint ставить
для тестового запуска развернул спарк на локальной машине.
сейчас так выглядит скрипт spark-submit.
spark-submit \
 --master local[4] \
   target/scala-2.11/i2i_optimizer-assembly-2.0.jar

понятно, что вместо jar файла надо, наверное указать appName но вопрос скорее про подход , а не конкертный скрипт
источник

AF

Alexander Fedorov in Moscow Spark
ну ты в IDEA и запускай тесты, со spark-submit это ты что-то разлетелся
источник

GP

Grigory Pomadchin in Moscow Spark
Alexander Fedorov
ну ты в IDEA и запускай тесты, со spark-submit это ты что-то разлетелся
+
источник

M

Mi in Moscow Spark
Vitaly Khudobakhshov
Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!
не хватает нормальной работы scala плагина который не может зарезолвить java и scala сигнатуры нормально https://youtrack.jetbrains.com/issue/SCL-8666
источник

M

Mi in Moscow Spark
Vitaly Khudobakhshov
Коллеги, нужна помощь коллективного разума! Вопрос тем, кто пользуется IntelliJ IDEA + Spark (может быть с Big Data Tools, но не обязательно). Каких фичей с точки зрения анализа кода и квик фиксов не хватает в Идее для работы со Spark? Простые примеры: квик фикс для deprecated методов, что-нибудь для работы с датафреймами/UDF и прочие. Упоминайте меня явно в ответе, чтобы я потом мог все это найти, записать и что-то заимплементить. Заранее спасибо!
а вообще может круто было бы сделать хотфикс/варнинг если используемая лямбда захватывает замыкает весь класс, которые не  сериализуемый
источник