Телеграмм чат группы moscowspark страница 410

2020 July 16

PK

Pavel Klemenkov in Moscow Spark

НУ в дата инженерах народу побольше, может и правда ответят. Я за плюрализм мнений )

источник

19:37пожаловаться #1

АЖ

Андрей Жуков... in Moscow Spark

Alex Gorodnitskiy

Привет, может кто сталкивался с такой проблемой: в обычном режиме ресурсы аллоцируются по требованию и после выполенения скрипта освобождаются, но при использовании broadcast и последующего выполнения broadcastObject.unpersist() в конце скрипта, спарк все равно оставляет на себе все ресурсы запрошенные во время исполнения скрипта, даже если ничего не выполняет, на данный момент решаю эту проблему закрытием спарк контекста и открытием его снова. Динамическая аллокация включена, версия спарка 2.4.0. Подскажите, пожалуйста, сталкивался ли кто-нибудь с такой проблемой и как ее можно решить, а то ресурсами на кластере не разживешься😔

Обратите внимание:

spark.dynamicAllocation.cachedExecutorIdleTimeout  infinity

источник

19:54пожаловаться #2

SM

Sergey M in Moscow Spark

hello everybody
у меня вопрос такой
в коде есть log.info
куда он пишется?
в log4j.properties на log4j.rootCategory=ALL, console
а в консоли ничего не появляется
и

yarn logs -applicationId <app_id> -appOwner <name>

пишет что

/app-logs/root/logs/<app_id> does not have any log files

источник

20:02пожаловаться #3

AG

Alex Gorodnitskiy in Moscow Spark

Андрей Жуков

Обратите внимание:

spark.dynamicAllocation.cachedExecutorIdleTimeout  infinity

Проверю, но вроде бы у меня 150s выставлено

источник

20:02пожаловаться #4

АЖ

Андрей Жуков... in Moscow Spark

Alex Gorodnitskiy

Проверю, но вроде бы у меня 150s выставлено

с spark.dynamicAllocation.executorIdleTimeout не путаете?

источник

20:02пожаловаться #5

AG

Alex Gorodnitskiy in Moscow Spark

А да, точно

источник

20:03пожаловаться #6

АЖ

Андрей Жуков... in Moscow Spark

это две разные опции :)

источник

20:03пожаловаться #7

AG

Alex Gorodnitskiy in Moscow Spark

Спасибо за совет 👍

источник

20:04пожаловаться #8

t

tenKe in Moscow Spark

Sergey M

hello everybody
у меня вопрос такой
в коде есть log.info
куда он пишется?
в log4j.properties на log4j.rootCategory=ALL, console
а в консоли ничего не появляется
и

yarn logs -applicationId <app_id> -appOwner <name>

пишет что

/app-logs/root/logs/<app_id> does not have any log files

если на драйвере - то в лог драйвера, если на воркерах - в лог воркера

источник

22:53пожаловаться #9

t

tenKe in Moscow Spark

ток лучше явно укажи этот файлик в жава оптс

источник

22:54пожаловаться #10

t

tenKe in Moscow Spark

и при старте джобы подкладывай его везде

источник

22:55пожаловаться #11

SM

Sergey M in Moscow Spark

tenKe

если на драйвере - то в лог драйвера, если на воркерах - в лог воркера

А где находится лог на воркере?
По какому пути?

источник

22:58пожаловаться #12

t

tenKe in Moscow Spark

куда направишь, туда и будет писать

источник

23:06пожаловаться #13

t

tenKe in Moscow Spark

воркер это обычное жвм приложение

источник

23:06пожаловаться #14

t

tenKe in Moscow Spark

и если класс extends Logging из интерналс спарка, то его можно логировать

источник

23:12пожаловаться #15

t

tenKe in Moscow Spark

в log4j.properties ток надо указывать log4j.logger.my.super.awesome.class=INFO

источник

23:13пожаловаться #16

2020 July 21

BG

Bogdan Gromov in Moscow Spark

Привет всем! Я натыкался на вот, какую проблему. При переименовании таблицы в Hive через:

ALTER TABLE ... RENAME ...

- Я мог получить доступ к таблице по новому имени через всё тот же Hive, переименование происходило и в hdfs, но в Spark... там не всё так однозначно. По старому имени он не находил ничего. По новому находил таблицу с нулём строк. Это всё сохранялось и после REFRESH-ов и даже после перезапуска спарк сессии. Единственное, что помогало, это как-нибудь обновить старую или новую таблицу: что-то добавить или на место старой что-то перезаписать.

Из-за чего это происходит и как правильно с этим работать?

источник

14:09пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Bogdan Gromov

Привет всем! Я натыкался на вот, какую проблему. При переименовании таблицы в Hive через:

ALTER TABLE ... RENAME ...

- Я мог получить доступ к таблице по новому имени через всё тот же Hive, переименование происходило и в hdfs, но в Spark... там не всё так однозначно. По старому имени он не находил ничего. По новому находил таблицу с нулём строк. Это всё сохранялось и после REFRESH-ов и даже после перезапуска спарк сессии. Единственное, что помогало, это как-нибудь обновить старую или новую таблицу: что-то добавить или на место старой что-то перезаписать.

Из-за чего это происходит и как правильно с этим работать?

Переносил из одной схемы бд в другую? Посмотри в метаданные, там нихрена не изменилось, поэтому и не читает спарк🤷‍♂

источник

14:16пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Спарк сам запрещает перенос таблицы из одной схемы в другую, потому что сложно нормально это прописать в метаданные

источник

14:17пожаловаться #19

BG

Bogdan Gromov in Moscow Spark

Внутри одной бд.

источник

14:18пожаловаться #20