Телеграмм чат группы moscowspark страница 489

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

951 membersпожаловаться на группу

2020 December 21

ИК

Иван Калининский... in Moscow Spark

Всем привет
У меня такой вопрос
Можно ли каким-нибудь образом проверить есть ли item в dataset'e
Т.е. что-то типо
dataset.contains(item)
или
item existsIn(dataset)
Можно конечно filter.count, но мне кажется эти операции более тяжеловесны чем предполагаемый exists

По большому счету мне надо
if (dataset contains item) 1 else 0

обычно делается через filter (where) и count > 0

источник

17:51пожаловаться #1

SM

Sergey M in Moscow Spark

Иван Калининский

обычно делается через filter (where) и count > 0

Я думаю на поиск лучшего решения я больше времени потрачу

Ок
Спасибо

источник

17:52пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

Я думаю на поиск лучшего решения я больше времени потрачу

Ок
Спасибо

вообще да, filter.count немного тяжелее, чем exists, потому что не остановится после первого найденного значения. В spark 2.4.0 есть existenseJoin, но я им не пользовался и да, скорее всего время на поиск или реализацию не окупятся, если это делается не на огромном количестве датасетов, но и тогда, скорее всего, лучше просто по другому организовать данные

источник

17:55пожаловаться #3

2020 December 22

T

T in Moscow Spark

Привет, запускаю тренироваться xgboost на gpu через h20-sparkling-water на g4dn.12xlarge инсансе (NVIDIA T4 x4). Наблюдая через nvidia-smi заметил что он утилизирует только 1 видюху вместо 4х, кто-нибудь сталкивался с таким поведением? Или это я неправильно интерпретировал вывод от nvidia-smi

источник

13:01пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Привет, запускаю тренироваться xgboost на gpu через h20-sparkling-water на g4dn.12xlarge инсансе (NVIDIA T4 x4). Наблюдая через nvidia-smi заметил что он утилизирует только 1 видюху вместо 4х, кто-нибудь сталкивался с таким поведением? Или это я неправильно интерпретировал вывод от nvidia-smi

Ну тут можно только гадать, возможно h2o cuda_visible_devices выставляет

источник

13:37пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

А как gpu мониторишь? Через nvidia-smi dmon?

источник

13:38пожаловаться #6

T

T in Moscow Spark

Pavel Klemenkov

А как gpu мониторишь? Через nvidia-smi dmon?

ага через watch + nvidia-smi

источник

13:40пожаловаться #7

T

T in Moscow Spark

Pavel Klemenkov

Ну тут можно только гадать, возможно h2o cuda_visible_devices выставляет

ага вот за это спасибо, по читаю в эту сторону. А то мне тут достался проект по наследству, хочу ему версии бампнуть и на gpu перевести (пока ради эксперемента)

источник

13:42пожаловаться #8

M

Mi in Moscow Spark

Кто-нибудь знает есть ли способ кастомизировать спарковый partition discovery чтобы на лету решать какие патриции должны быть видны а какие нет?

источник

13:47пожаловаться #9

M

Mi in Moscow Spark

Нужно для того чтобы скрыть некоторые патриции которые отвечают за версию данных

источник

13:48пожаловаться #10

ND

Nikita Dushakov in Moscow Spark

Привет!
Очень странная ситуация, при селекте одной и той же таблицы выгружается разное количество записей
Кто-нибудь сталкивался с таким?

источник

15:24пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

Нужно для того чтобы скрыть некоторые патриции которые отвечают за версию данных

О, я так хотел сделать)) без привлечения сторонних библиотек создать обновляемую файловую таблицу в hdfs.

Идея была в том, чтобы заходить через view, в котором явно указаны все нужные партиции, с самой последней версией, вот такой незамысловатый partition pruning))

Некоторые опасения внушал будущий размер SQL этой вьюхи, но до серьёзных испытаний дело не дошло

источник

15:38пожаловаться #12

M

Mi in Moscow Spark

понятненько, спасибо

источник

15:38пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

понятненько, спасибо

Может попробовать apache iceberg адоптить? Слышал про него много хорошего

источник

15:39пожаловаться #14

M

Mi in Moscow Spark

Не, тут только кустарными методами есть возможность)

источник

15:43пожаловаться #15

GP

Grigory Pomadchin in Moscow Spark

источник

15:57пожаловаться #16

AK

Alena Korogodova in Moscow Spark

Аватарка интересная.

источник

16:02пожаловаться #17

AK

Alena Korogodova in Moscow Spark

Только что был Макс Титов... >_<

источник

16:02пожаловаться #18

АЖ

Андрей Жуков... in Moscow Spark

стреляй!

источник

16:04пожаловаться #19

GP

Grigory Pomadchin in Moscow Spark

Бан!

источник

16:05пожаловаться #20