Size: a a a

2019 November 15

AP

Anton Pilipenko in Moscow Spark
Может я неправильно что-то понимаю но выглядит это так...
источник

t

tenKe in Moscow Spark
скорее всего это так и есть
источник

t

tenKe in Moscow Spark
есть только одна ошибка, которую я встречал у себя с кафкой в части оффсетов - иногда стрим теряет оффсет партиции и при рестарте он уезжает в непонятное значение
источник

t

tenKe in Moscow Spark
но там ошибка по конкретной партиции возникает
источник

DG

Denis Gabaydulin in Moscow Spark
В свое время даже думал над тем, чтобы сделать для таких целей логику читай на старте, не с earliest а earlest+buffer.
источник

AS

Andrey Sutugin in Moscow Spark
Андрей Жуков
Ну а чо, у нас hdp и контейнеры со спарком 2.4 в ярне
Админ не хочет ставить  2.4 на кластер... говорит "пока hdp офицально не обновит не буду"
источник

t

tenKe in Moscow Spark
Andrey Sutugin
Админ не хочет ставить  2.4 на кластер... говорит "пока hdp офицально не обновит не буду"
мне кажется все админы хадупа проходят через это (вера в то, что в HDP стабильные компоненты и все, чего нет в HDP - глючное и нестабильное)
источник

AP

Anton Pilipenko in Moscow Spark
@tenKe А правильно ли я понимаю что на 2.3 нет честного способа заперсистить стримовый давафрейм?
источник

t

tenKe in Moscow Spark
ну его и в 2.4 нет, но там ты можешь заперситить статический датафрейм внутри форичбач синка
источник

DG

Denis Gabaydulin in Moscow Spark
Админы оч консервативные люди. Если можно не обновляться, до последнего не будут. Поэтому и культура девопсинга развивается, когда разработчики сами поддерживают кластера. А админам остаются только железки в дц и сети.
источник

AS

Andrey Sutugin in Moscow Spark
tenKe
мне кажется все админы хадупа проходят через это (вера в то, что в HDP стабильные компоненты и все, чего нет в HDP - глючное и нестабильное)
Ну у меня тут своя еще боль, кластер развернут и настроен через пень колоду, куча сервисов не используемых от которых потеряны логины и пароли(атлас и все такое), а пересетапить и перенастроить не дают, а сами ссылаются на нехватку времени и знаний...
источник

АЖ

Андрей Жуков... in Moscow Spark
tenKe
мне кажется все админы хадупа проходят через это (вера в то, что в HDP стабильные компоненты и все, чего нет в HDP - глючное и нестабильное)
а потом оказывается, что наоборот
источник

АЖ

Андрей Жуков... in Moscow Spark
Andrey Sutugin
Админ не хочет ставить  2.4 на кластер... говорит "пока hdp офицально не обновит не буду"
но ведь можно и не ставить ;)
источник

DG

Denis Gabaydulin in Moscow Spark
Это где вы работаете?)
источник

DG

Denis Gabaydulin in Moscow Spark
В таком прекрасном месте.
источник

DG

Denis Gabaydulin in Moscow Spark
BTW, персист датафрейма в стриминге, это странное желание.
Потому что стриминг это же low latency, а если нет такой цели, то лучше батчинг обычный.
источник

t

tenKe in Moscow Spark
Denis Gabaydulin
BTW, персист датафрейма в стриминге, это странное желание.
Потому что стриминг это же low latency, а если нет такой цели, то лучше батчинг обычный.
ты забыл лоу летенси в кавычки взять :)
источник

DG

Denis Gabaydulin in Moscow Spark
Ну в спарке это секунды на жирном топике, да)
источник

AP

Anton Pilipenko in Moscow Spark
Denis Gabaydulin
BTW, персист датафрейма в стриминге, это странное желание.
Потому что стриминг это же low latency, а если нет такой цели, то лучше батчинг обычный.
ну как вариант срать  kafka -> hdfs и потом оттуда забирать оттуда (там оно как будто не потрется)
источник

АЖ

Андрей Жуков... in Moscow Spark
Anton Pilipenko
ну как вариант срать  kafka -> hdfs и потом оттуда забирать оттуда (там оно как будто не потрется)
ну, кстати, мы примерно так и делаем
источник