Size: a a a

2020 July 16

PK

Pavel Klemenkov in Moscow Spark
НУ в дата инженерах народу побольше, может и правда ответят. Я за плюрализм мнений )
источник

АЖ

Андрей Жуков... in Moscow Spark
Alex Gorodnitskiy
Привет, может кто сталкивался с такой проблемой: в обычном режиме ресурсы аллоцируются по требованию и после выполенения скрипта освобождаются, но при использовании broadcast и последующего выполнения broadcastObject.unpersist() в конце скрипта, спарк все равно оставляет на себе все ресурсы запрошенные во время исполнения скрипта, даже если ничего не выполняет, на данный момент решаю эту проблему закрытием спарк контекста и открытием его снова. Динамическая аллокация включена, версия спарка 2.4.0. Подскажите, пожалуйста, сталкивался ли кто-нибудь с такой проблемой и как ее можно решить, а то ресурсами на кластере не разживешься😔
Обратите внимание:
spark.dynamicAllocation.cachedExecutorIdleTimeout  infinity
источник

SM

Sergey M in Moscow Spark
hello everybody
у меня вопрос такой
в коде есть log.info
куда он пишется?
в log4j.properties на log4j.rootCategory=ALL, console
а в консоли ничего не появляется
и
yarn logs -applicationId <app_id> -appOwner <name>

пишет что
/app-logs/root/logs/<app_id> does not have any log files
источник

AG

Alex Gorodnitskiy in Moscow Spark
Андрей Жуков
Обратите внимание:
spark.dynamicAllocation.cachedExecutorIdleTimeout  infinity
Проверю, но вроде бы у меня 150s выставлено
источник

АЖ

Андрей Жуков... in Moscow Spark
Alex Gorodnitskiy
Проверю, но вроде бы у меня 150s выставлено
с spark.dynamicAllocation.executorIdleTimeout не путаете?
источник

AG

Alex Gorodnitskiy in Moscow Spark
А да, точно
источник

АЖ

Андрей Жуков... in Moscow Spark
это две разные опции :)
источник

AG

Alex Gorodnitskiy in Moscow Spark
Спасибо за совет 👍
источник

t

tenKe in Moscow Spark
Sergey M
hello everybody
у меня вопрос такой
в коде есть log.info
куда он пишется?
в log4j.properties на log4j.rootCategory=ALL, console
а в консоли ничего не появляется
и
yarn logs -applicationId <app_id> -appOwner <name>

пишет что
/app-logs/root/logs/<app_id> does not have any log files
если на драйвере - то в лог драйвера, если на воркерах - в лог воркера
источник

t

tenKe in Moscow Spark
ток лучше явно укажи этот файлик в жава оптс
источник

t

tenKe in Moscow Spark
и при старте джобы подкладывай его везде
источник

SM

Sergey M in Moscow Spark
tenKe
если на драйвере - то в лог драйвера, если на воркерах - в лог воркера
А где находится лог на воркере?
По какому пути?
источник

t

tenKe in Moscow Spark
куда направишь, туда и будет писать
источник

t

tenKe in Moscow Spark
воркер это обычное жвм приложение
источник

t

tenKe in Moscow Spark
и если класс extends Logging из интерналс спарка, то его можно логировать
источник

t

tenKe in Moscow Spark
в log4j.properties ток надо указывать log4j.logger.my.super.awesome.class=INFO
источник
2020 July 21

BG

Bogdan Gromov in Moscow Spark
Привет всем! Я натыкался на вот, какую проблему. При переименовании таблицы в Hive через:

ALTER TABLE ... RENAME ...

- Я мог получить доступ к таблице по новому имени через всё тот же Hive, переименование происходило и в hdfs, но в Spark... там не всё так однозначно. По старому имени он не находил ничего. По новому находил таблицу с нулём строк. Это всё сохранялось и после REFRESH-ов и даже после перезапуска спарк сессии. Единственное, что помогало, это как-нибудь обновить старую или новую таблицу: что-то добавить или на место старой что-то перезаписать.

Из-за чего это происходит и как правильно с этим работать?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Bogdan Gromov
Привет всем! Я натыкался на вот, какую проблему. При переименовании таблицы в Hive через:

ALTER TABLE ... RENAME ...

- Я мог получить доступ к таблице по новому имени через всё тот же Hive, переименование происходило и в hdfs, но в Spark... там не всё так однозначно. По старому имени он не находил ничего. По новому находил таблицу с нулём строк. Это всё сохранялось и после REFRESH-ов и даже после перезапуска спарк сессии. Единственное, что помогало, это как-нибудь обновить старую или новую таблицу: что-то добавить или на место старой что-то перезаписать.

Из-за чего это происходит и как правильно с этим работать?
Переносил из одной схемы бд в другую? Посмотри в метаданные, там нихрена не изменилось, поэтому и не читает спарк🤷‍♂
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк сам запрещает перенос таблицы из одной схемы в другую, потому что сложно нормально это прописать в метаданные
источник

BG

Bogdan Gromov in Moscow Spark
Внутри одной бд.
источник