Size: a a a

2020 June 04

АЖ

Андрей Жуков... in Moscow Spark
ну это все равно кастомный синк
источник

АЖ

Андрей Жуков... in Moscow Spark
так что можно разные варианты попробовать
источник

O

Oleg in Moscow Spark
Мы даже в nifi делали легко проверку на количество вставленных строк, в спарке даже проще, самый простой вариант
источник

ЕГ

Евгений Глотов... in Moscow Spark
В постгрес в 200 потоков можно заливать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Только потом проверить надо, что залилось
источник

ЕГ

Евгений Глотов... in Moscow Spark
Зачем с мастера
источник

O

Oleg in Moscow Spark
Ну а если воркер отвалится и какой-то батч не вставится?
источник

N

Nikolay in Moscow Spark
Евгений Глотов
В постгрес в 200 потоков можно заливать
А это не положит его ?
источник

IV

Ilya Vanin in Moscow Spark
Oleg
Ну а если воркер отвалится и какой-то батч не вставится?
Так, по идее, запустится другой воркер, который подхватит джобу
источник

IV

Ilya Vanin in Moscow Spark
Nikolay
А это не положит его ?
Может, но можно ограничить
источник

O

Oleg in Moscow Spark
Ilya Vanin
Так, по идее, запустится другой воркер, который подхватит джобу
Ну это идеальный вариант, но в это случае там чувствительные к потере данные
источник

O

Oleg in Moscow Spark
У нас pg+haproxy держал 100 коннектов, сколько это потоков с клиента не скажу, но там даже больше 200 думаю и было норм
источник

ЕГ

Евгений Глотов... in Moscow Spark
Oleg
Ну а если воркер отвалится и какой-то батч не вставится?
Он перезапустится, есть правда риск, что вставит какие-то данные вставятся два раза
источник

ЕГ

Евгений Глотов... in Moscow Spark
Nikolay
А это не положит его ?
Приложит немного, у нас конфлюенс с джирой на том же постгресе работали, во время таких загрузок жутко тормозили)
источник

O

Oleg in Moscow Spark
Евгений Глотов
Он перезапустится, есть правда риск, что вставит какие-то данные вставятся два раза
это если транзакция завершится, чего быть не должно
источник

N

Nikolay in Moscow Spark
Это выглядит подозрительным крайне.  Если бы это был оракле и мне сказали , что сейчас в базе 200 активных сессий на машине, где скажем 64 ядра, то я бы сказал , что это не очень хорошо ).
источник

O

Oleg in Moscow Spark
В целом если данных мало, то надежнее вставлять с мастера и параллелиться на уровне жвм
источник

ЕГ

Евгений Глотов... in Moscow Spark
Oleg
это если транзакция завершится, чего быть не должно
Почему не должно? Если батч сайз меньше партиции, то будет завершаться
источник

O

Oleg in Moscow Spark
Евгений Глотов
Почему не должно? Если батч сайз меньше партиции, то будет завершаться
я про логику, ситуация что экзекутор зафейлится а данные закомититься критичная в этой ситуации, либо делать проверку на уникальность вставляемых данных, добавляя сложности в код и структуру данных
источник

ЕГ

Евгений Глотов... in Moscow Spark
Лучше тогда партицию сделать меньше, чем батч сайз
источник