Телеграмм чат группы moscowspark страница 38

@art_vybor, @fediq, @pklemenkov спасибо. Про то, что если хранить где-то совсем сбоку, то теряется локальность данных, и про то, что на CH сложно делать ETL от сырых данных до сложных агрегатов, но если кто-то добрый уже записал, то CH проживёт из без Spark - хорошие пойнты:)

Вот тут недопонимание. С точки зрения data locality не бывает совсем и не совсем сбоку. :)
Бывает либо данные на той же ноде (локальные), либо на другой ноде (не локальные). Между этими двумя стейтами - пропасть. От того, насколько далеко данные, уже не так значимо всё меняется.

При этом, если поставить на одну машину две разнородные системы (например, Spark и ClickHouse), скорее всего, будет ещё хуже - хоть Spark и не сможет получать преимущества от локальности при планировании вычислений, зато ClickHouse будет мало памяти и посторонние нагрузки на диск.

источник

10:45пожаловаться #4

ID:282687363 in Moscow Spark

@fediq Не, тут просто чрезмерно усиленный эвфемизм:) Я понимаю, что либо “код идёт к данным” либо “данные к коду”. И что поэтому JDBC connector в Spark выглядит немного внезапно. И про сосуществование разных систем на одном кластере - это действительно печально, могу только подтвердить.

источник

10:48пожаловаться #5

ID:282687363 in Moscow Spark

@v_o_chesnokov А ES->Spark->ES - это батчи или стриминг?

источник

10:49пожаловаться #6

Fedor Lavrentyev in Moscow Spark

Я видел ES -> Spark в батче пошардово, работало норм.

источник

10:50пожаловаться #7

Grigory Pomadchin in Moscow Spark

ID:282687363

@v_o_chesnokov А ES->Spark->ES - это батчи или стриминг?

можно и стриминг

источник

10:53пожаловаться #8

Fedor Lavrentyev in Moscow Spark

Это было ещё до elasticsearch-hadoop, кустарный драйвер от народных умельцев. К каждому шарду отдельно делался запрос и стримился отдельной таской в Spark. Скорость была приемлемая. Скорее всего, родной коннектор сможет не хуже.

источник

10:53пожаловаться #9

ID:282687363 in Moscow Spark

Круто, спасибо за инфу:)

источник

10:54пожаловаться #10

Fedor Lavrentyev in Moscow Spark

Всем привет! Помогите, пожалуйста, вспомнить.
Мне казалось, что у Spark есть опция перезапускать экзекьютор через каждые N тасков. Не могу ни вспомнить название, ни нагуглить. Память подводит?

источник

16:35пожаловаться #11

Pavel Klemenkov in Moscow Spark

Возможно ты имеешь в виду speculative execution? Но там дело не в числе, а во времени исполнения

источник

16:47пожаловаться #12

tenKe in Moscow Spark

Fedor Lavrentyev

да, есть. Называется «поставь экзекуторам поменьше памяти»

источник

16:51пожаловаться #13

tenKe in Moscow Spark

sticker.webp

(25.11 Кб)

источник

16:51пожаловаться #14

Fedor Lavrentyev in Moscow Spark

Не, speculative это немного не то. Я был уверен, что есть механизм для перезапуска контейнеров. Мне кажется, что в одной из задач со временем экзекутор ржавеет. :)

источник

16:52пожаловаться #15

Grigory Pomadchin in Moscow Spark

не; есть колва ошибок количества параметр; после которого они не будут рекавериться)

источник

16:54пожаловаться #16

Alexander K. in Moscow Spark

ID:282687363

А не подскажете истории успеха Spark без HDFS/Hive/S3 в качестве источника данных (то есть не когда Spark Streaming пишет куда-то не в Hadoop)? Я что-то навскидку не могу нагуглить.

эээ Kafka чем тебе не Kafka ? вообще любой источник подойдет

источник

16:56пожаловаться #17

Fedor Lavrentyev in Moscow Spark

У меня не падает ничего, просто начинает со временем тормозить. Можно либо поиграться с preemption, либо жахнуть больше экзекуторов, чтобы они быстрее отрабатывали и не успевали протухнуть

источник

16:56пожаловаться #18

Alexander K. in Moscow Spark

Fedor Lavrentyev

не слышал о таком.

источник

16:56пожаловаться #19

Alexander K. in Moscow Spark

мы это делали вручную на работе

источник

16:56пожаловаться #20