Size: a a a

2018 July 02

GP

Grigory Pomadchin in Moscow Spark
ID:282687363
Да, забыл ещё эти слова:) Но в них совсем не силён. И мне казалось, что хороший HBase/Accumulo не бывает без HDFS? 🤔
нельзя похорошему; они обе упадут на рекавери без хдфс скорее всего
источник

GP

Grigory Pomadchin in Moscow Spark
надо касотмные рекавери стратегии писать и класть в класспас
источник

GP

Grigory Pomadchin in Moscow Spark
источник

FL

Fedor Lavrentyev in Moscow Spark
ID:282687363
@art_vybor, @fediq, @pklemenkov спасибо. Про то, что если хранить где-то совсем сбоку, то теряется локальность данных, и про то, что на CH сложно делать ETL от сырых данных до сложных агрегатов, но если кто-то добрый уже записал, то CH проживёт из без Spark - хорошие пойнты:)
Вот тут недопонимание. С точки зрения data locality не бывает совсем и не совсем сбоку. :)
Бывает либо данные на той же ноде (локальные), либо на другой ноде (не локальные). Между этими двумя стейтами - пропасть. От того, насколько далеко данные, уже не так значимо всё меняется.

При этом, если поставить на одну машину две разнородные системы (например, Spark и ClickHouse), скорее всего, будет ещё хуже - хоть Spark и не сможет получать преимущества от локальности при планировании вычислений, зато ClickHouse будет мало памяти и посторонние нагрузки на диск.
источник

NK

ID:282687363 in Moscow Spark
@fediq Не, тут просто чрезмерно усиленный эвфемизм:) Я понимаю, что либо “код идёт к данным” либо “данные к коду”. И что поэтому JDBC connector в Spark выглядит немного внезапно. И про сосуществование разных систем на одном кластере - это действительно печально, могу только подтвердить.
источник

NK

ID:282687363 in Moscow Spark
@v_o_chesnokov А ES->Spark->ES - это батчи или стриминг?
источник

FL

Fedor Lavrentyev in Moscow Spark
Я видел ES -> Spark в батче пошардово, работало норм.
источник

GP

Grigory Pomadchin in Moscow Spark
ID:282687363
@v_o_chesnokov А ES->Spark->ES - это батчи или стриминг?
можно и стриминг
источник

FL

Fedor Lavrentyev in Moscow Spark
Это было ещё до elasticsearch-hadoop, кустарный драйвер от народных умельцев. К каждому шарду отдельно делался запрос и стримился отдельной таской в Spark. Скорость была приемлемая. Скорее всего, родной коннектор сможет не хуже.
источник

NK

ID:282687363 in Moscow Spark
Круто, спасибо за инфу:)
источник

FL

Fedor Lavrentyev in Moscow Spark
Всем привет! Помогите, пожалуйста, вспомнить.
Мне казалось, что у Spark есть опция перезапускать экзекьютор через каждые N тасков. Не могу ни вспомнить название, ни нагуглить. Память подводит?
источник

PK

Pavel Klemenkov in Moscow Spark
Возможно ты имеешь в виду speculative execution? Но там дело не в числе, а во времени исполнения
источник

t

tenKe in Moscow Spark
Fedor Lavrentyev
Всем привет! Помогите, пожалуйста, вспомнить.
Мне казалось, что у Spark есть опция перезапускать экзекьютор через каждые N тасков. Не могу ни вспомнить название, ни нагуглить. Память подводит?
да, есть. Называется «поставь экзекуторам поменьше памяти»
источник

t

tenKe in Moscow Spark
источник

FL

Fedor Lavrentyev in Moscow Spark
Не, speculative это немного не то. Я был уверен, что есть механизм для перезапуска контейнеров. Мне кажется, что в одной из задач со временем экзекутор ржавеет. :)
источник

GP

Grigory Pomadchin in Moscow Spark
не; есть колва ошибок количества параметр; после которого они не будут рекавериться)
источник

AK

Alexander K. in Moscow Spark
ID:282687363
А не подскажете истории успеха Spark без HDFS/Hive/S3 в качестве источника данных (то есть не когда Spark Streaming пишет куда-то не в Hadoop)? Я что-то навскидку не могу нагуглить.
эээ Kafka чем тебе не Kafka ? вообще любой источник подойдет
источник

FL

Fedor Lavrentyev in Moscow Spark
У меня не падает ничего, просто начинает со временем тормозить. Можно либо поиграться с preemption, либо жахнуть больше экзекуторов, чтобы они быстрее отрабатывали и не успевали протухнуть
источник

AK

Alexander K. in Moscow Spark
Fedor Lavrentyev
Всем привет! Помогите, пожалуйста, вспомнить.
Мне казалось, что у Spark есть опция перезапускать экзекьютор через каждые N тасков. Не могу ни вспомнить название, ни нагуглить. Память подводит?
не слышал о таком.
источник

AK

Alexander K. in Moscow Spark
мы это делали вручную на работе
источник