Size: a a a

2020 December 21

ИК

Иван Калининский... in Moscow Spark
Sergey M
Всем привет
У меня такой вопрос
Можно ли каким-нибудь образом проверить есть ли item в dataset'e
Т.е. что-то типо
dataset.contains(item)
или
item existsIn(dataset)
Можно конечно filter.count, но мне кажется эти операции более тяжеловесны чем предполагаемый exists

По большому счету мне надо
if (dataset contains item) 1 else 0
обычно делается через filter (where) и count > 0
источник

SM

Sergey M in Moscow Spark
Иван Калининский
обычно делается через filter (where) и count > 0
Я думаю на поиск лучшего решения я больше времени потрачу

Ок
Спасибо
источник

ИК

Иван Калининский... in Moscow Spark
Sergey M
Я думаю на поиск лучшего решения я больше времени потрачу

Ок
Спасибо
вообще да, filter.count немного тяжелее, чем exists, потому что не остановится после первого найденного значения. В spark 2.4.0 есть existenseJoin, но я им не пользовался и да, скорее всего время на поиск или реализацию не окупятся, если это делается не на огромном количестве датасетов, но и тогда, скорее всего, лучше просто по другому организовать данные
источник
2020 December 22

T

T in Moscow Spark
Привет, запускаю тренироваться xgboost на gpu через h20-sparkling-water  на g4dn.12xlarge инсансе (NVIDIA T4 x4). Наблюдая через nvidia-smi заметил что он утилизирует только 1 видюху вместо 4х, кто-нибудь сталкивался с таким поведением? Или это я неправильно интерпретировал вывод от nvidia-smi
источник

PK

Pavel Klemenkov in Moscow Spark
T
Привет, запускаю тренироваться xgboost на gpu через h20-sparkling-water  на g4dn.12xlarge инсансе (NVIDIA T4 x4). Наблюдая через nvidia-smi заметил что он утилизирует только 1 видюху вместо 4х, кто-нибудь сталкивался с таким поведением? Или это я неправильно интерпретировал вывод от nvidia-smi
Ну тут можно только гадать, возможно h2o cuda_visible_devices выставляет
источник

PK

Pavel Klemenkov in Moscow Spark
А как gpu мониторишь? Через nvidia-smi dmon?
источник

T

T in Moscow Spark
Pavel Klemenkov
А как gpu мониторишь? Через nvidia-smi dmon?
ага через watch + nvidia-smi
источник

T

T in Moscow Spark
Pavel Klemenkov
Ну тут можно только гадать, возможно h2o cuda_visible_devices выставляет
ага вот за это спасибо, по читаю в эту сторону. А то мне тут достался проект по наследству, хочу ему версии бампнуть и на gpu перевести (пока ради эксперемента)
источник

M

Mi in Moscow Spark
Кто-нибудь знает есть ли способ кастомизировать спарковый partition discovery чтобы на лету решать какие патриции должны быть видны а какие нет?
источник

M

Mi in Moscow Spark
Нужно для того чтобы скрыть некоторые патриции которые отвечают за версию данных
источник

ND

Nikita Dushakov in Moscow Spark
Привет!
Очень странная ситуация, при селекте одной и той же таблицы выгружается разное количество записей
Кто-нибудь сталкивался с таким?
источник

ИК

Иван Калининский... in Moscow Spark
Mi
Нужно для того чтобы скрыть некоторые патриции которые отвечают за версию данных
О, я так хотел сделать)) без привлечения сторонних библиотек создать обновляемую файловую таблицу в hdfs.

Идея была в том, чтобы заходить через view, в котором явно указаны все нужные партиции, с самой последней версией, вот такой незамысловатый partition pruning))

Некоторые  опасения внушал будущий размер SQL этой вьюхи, но до серьёзных испытаний дело не дошло
источник

M

Mi in Moscow Spark
понятненько, спасибо
источник

ИК

Иван Калининский... in Moscow Spark
Mi
понятненько, спасибо
Может попробовать apache iceberg адоптить? Слышал про него много хорошего
источник

M

Mi in Moscow Spark
Не, тут только кустарными методами есть возможность)
источник

GP

Grigory Pomadchin in Moscow Spark
источник

AK

Alena Korogodova in Moscow Spark
Аватарка интересная.
источник

AK

Alena Korogodova in Moscow Spark
Только что был Макс Титов... >_<
источник

АЖ

Андрей Жуков... in Moscow Spark
стреляй!
источник

GP

Grigory Pomadchin in Moscow Spark
Бан!
источник