Size: a a a

2020 October 22

G

Gev in Moscow Spark
Есть еще вопрос. Я думал что если я пытаюсь записать данные одним бачем то это позволит мне условно обеспечить транзакционность. То есть решить проблему контроля сохранения данных в базу при падении.
источник

G

Gev in Moscow Spark
Но это не так. И вот что теперь делать - не знаю. Кажется что “нормального” решения для гарантированного сохранения данных в базу PostgreSQL нет
источник

G

Gev in Moscow Spark
То есть я задаю batchsize = количеству записей но при падении этой записи в базе всеравно данные есть. Видимо дополнительно надо ограничить запись одним потоком
источник

А

Алексей in Moscow Spark
пробовал в оракл записывать, есть транзакционность на уровне 1 таски, так что нужно покопать в сторону настроек pg
источник

А

Алексей in Moscow Spark
если уровень изоляции неверный, то установить их опциями spark.jdbc: isolationLevel или sessionInitStatement
источник
2020 October 23

SS

Sergey Shushkov in Moscow Spark
Gev
То есть я задаю batchsize = количеству записей но при падении этой записи в базе всеравно данные есть. Видимо дополнительно надо ограничить запись одним потоком
Помоемому там на ряду с размером батча есть таймаут и объем , про последнее не уверен.
источник

G

Gev in Moscow Spark
Да. Есть. Надо будет в их сторону покопать тоже
источник

А

Алексей in Moscow Spark
https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/jdbc/JdbcUtils.scala#L685
коммит делается 1 раз в самом конце партиции, если бд это поддерживает
источник
2020 October 26

ME

Max Efremov in Moscow Spark
Привет, а у вас остались слайды с докладов? Что-то не могу найти
источник

PK

Pavel Klemenkov in Moscow Spark
Max Efremov
Привет, а у вас остались слайды с докладов? Что-то не могу найти
Привет, я приболел, поэтому торможу с выкладкой нарезок и слайдов. Слайды сейчас закину
источник

ME

Max Efremov in Moscow Spark
Pavel Klemenkov
Привет, я приболел, поэтому торможу с выкладкой нарезок и слайдов. Слайды сейчас закину
Спасибо! Хочу коллегам на работе рассказать про доклады)
источник

PK

Pavel Klemenkov in Moscow Spark
Слайды выложил, как обычно, сюда http://bit.ly/moscow_spark_slides
источник

ME

Max Efremov in Moscow Spark
Спасибо!
источник
2020 October 28

Д

Дима in Moscow Spark
Всем Привет! Вопрос может быть немного не в тему, но все же)
Использую airflow для шедулирования запуска spark джобов, так вот вопрос, как в airflow spark submit operator передать параметр deploy mode?
источник

Д

Дима in Moscow Spark
Может быть кто то сталкивался?
источник

TZ

Timur Zalimov in Moscow Spark
Дима
Всем Привет! Вопрос может быть немного не в тему, но все же)
Использую airflow для шедулирования запуска spark джобов, так вот вопрос, как в airflow spark submit operator передать параметр deploy mode?
Через conf
источник

TZ

Timur Zalimov in Moscow Spark
submit_spark_job = SparkSubmitOperator(
   application="***",
   conf={'spark.yarn.queue': 'prod', 'spark.submit.deployMode': 'cluster'},
   task_id="submit",
   conn_id="hdp31_spark",
   java_class="***",
   application_args=[],
   dag=dag
)
источник

TZ

Timur Zalimov in Moscow Spark
вот примерчик
источник

Д

Дима in Moscow Spark
Timur Zalimov
вот примерчик
Спасибо! Попробую этот вариант ещё. У меня получилось ещё через параметр extra в настройках коннекшена, просто добавил "deploy-mode"="cluster"
источник

TZ

Timur Zalimov in Moscow Spark
все что не встроено в spark submit я передаю через conf
источник