Size: a a a

2019 January 30

ЕГ

Евгений Глотов... in Moscow Spark
под виндовую надо копать протокол smb, по идее, можно монтировать smb папку как обычную папку, но повозиться придётся
источник

S

Stanislav in Moscow Spark
Евгений Глотов
под виндовую надо копать протокол smb, по идее, можно монтировать smb папку как обычную папку, но повозиться придётся
Да там возиться нечего, но цифс требует рута на сервера, а таких прав похоже нет у человека. Иначе и вопроса бы не возникло)
источник

ЕГ

Евгений Глотов... in Moscow Spark
как показывает практика, больше всего возни именно с правами, примерно 99%, вся остальная работа делается очень быстро)
источник

S

Stanislav in Moscow Spark
Это точно)
источник
2019 January 31

ДК

Дмитрий Курганский... in Moscow Spark
Да, сетевая папка виндовая...(
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно на винде поднять процесс, который будет из фтп перекидывать в сетевую папку😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или даже напрямую из хдфс
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или винды тоже нет, а папка вообще чужая?
источник

ДК

Дмитрий Курганский... in Moscow Spark
А вот с процессом на винде скорее всего все может получится, я уточню о возможности, спасибо за советы!
источник
2019 February 05

PK

Pavel Klemenkov in Moscow Spark
Привет, друзья, давно не слышались! Я вот раздумывал над новыми форматами для нашего митапа, и пришла в голову такая идея. Ко мне периодически обращаются за консультациями или просто задают вопросы по Spark. И чуть менее, чем всегда вопросы довольно однотипные. Как спланировать ресусры, как деплоить, есть ли какой-то стайл гайд, почему ALS такой тормозной. Я подумал, что на все вопросы никто из нас правильных ответов не знает. А если и знает, то, возможно, они не совсем правильные. Короче предлагаю на очередном митапе провести а-ля панельную дискуссию, гда мы соберем вместе нескольких экспертов и позадаем им животрепещущие вопросы. А во время дискусси родится истина. Мы эту истину осмыслим и упакуем в какой-нибудь документ (например статью на Хабр тиснем). Постепенно будем собирать знание и будет всем счастье. Задавать насущные вопросы и предлагать экспертов можно в этой форме https://goo.gl/forms/a51IZyeVunfZ2gbz2
источник
2019 February 08

AA

Anton Alekseev in Moscow Spark
Всем привет. Подскажите, стартую spark-submit на кластере (4 cpu - 32 gb) X 3, с конфигами num exec - 9, memory per executor - 5g, cpu per exe - 1. Так вот при аллокации ресурсов в yarn top отображается 10 ядер, а в yarn node деталях вообще для одной ноды аллоцировано 7 ядер из 3 доступных, на другой 3 из 3, третья вообще не поделилась ресурсами. Скажите пожалуйста, какие конфиги почитать, чтобы нормально распределились, и почему yarn так распределил (вышел за ограничения)?
источник

AA

Anton Alekseev in Moscow Spark
Ну и в ганглии действительно пишется загрузка одной ноды 150%, та которая не поделилась ресурсами отдыхает.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ярн раскидывает по нодам как хочет
источник

ЕГ

Евгений Глотов... in Moscow Spark
Как минимум, чтобы попытаться раскидать ровно, стоит убрать data locality
источник

AA

Anton Alekseev in Moscow Spark
Евгений Глотов
Как минимум, чтобы попытаться раскидать ровно, стоит убрать data locality
yarn.scheduler.capacity.node-locality-delay - оно?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Anton Alekseev
yarn.scheduler.capacity.node-locality-delay - оно?
Не
источник

ЕГ

Евгений Глотов... in Moscow Spark
spark.locality.wait
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вот тут контрол-ф, там за ним ещё 3 параметра, можно всё в ноль
источник

S

Stanislav in Moscow Spark
Anton Alekseev
Всем привет. Подскажите, стартую spark-submit на кластере (4 cpu - 32 gb) X 3, с конфигами num exec - 9, memory per executor - 5g, cpu per exe - 1. Так вот при аллокации ресурсов в yarn top отображается 10 ядер, а в yarn node деталях вообще для одной ноды аллоцировано 7 ядер из 3 доступных, на другой 3 из 3, третья вообще не поделилась ресурсами. Скажите пожалуйста, какие конфиги почитать, чтобы нормально распределились, и почему yarn так распределил (вышел за ограничения)?
10 ядро - драйвер. Ты не задал ограничение в ярне по цпу, его можно жёстко задать.
источник