Телеграмм чат группы moscowspark страница 488

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

949 membersпожаловаться на группу

2020 December 20

EC

Eugene Chipizubov in Moscow Spark

Over странная херня приключилась
При приземлении таблички в папке создается две группы файлов отличающихся только uuid, например:
part-00000-xyz-c000.snappy.parquet
part-00000-zyx-c000.snappy.parquet
part-00001-xyz-c000.snappy.parquet
part-00001-zyx-c000.snappy.parquet

источник

22:30пожаловаться #1

EC

Eugene Chipizubov in Moscow Spark

Spark 3.0.1

источник

22:30пожаловаться #2

EC

Eugene Chipizubov in Moscow Spark

Не спотыкался ли кто либо еще о такое поведение?

источник

22:31пожаловаться #3

EC

Eugene Chipizubov in Moscow Spark

Возникает рандомно по времени, даже при невысокой нагрузке на кластер

источник

22:31пожаловаться #4

2020 December 21

ЕГ

Евгений Глотов... in Moscow Spark

Eugene Chipizubov

Не спотыкался ли кто либо еще о такое поведение?

А точно никто по второму разу то же самое не запускает?

источник

00:23пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

С таким сталкивался)

источник

00:23пожаловаться #6

EC

Eugene Chipizubov in Moscow Spark

клянутся, что нет, отчасти верю так как запускают в юпитере

источник

00:24пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

В юпитере можно как раз случайно запустить два раза так, что не заметишь

источник

00:25пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Одну ячейку два раза запустить, не дожидаясь результата

источник

00:25пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Проверьте спарк-сессии ребят

источник

00:25пожаловаться #10

EC

Eugene Chipizubov in Moscow Spark

чтобы исключить мультиконтекст, попросил временную папку сделать под каждый запуск изолированной

источник

00:25пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

В одной сессии просто последовательно бывает два одинаковых джоба бегают

источник

00:26пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Если там аппенд, ну вот и будет задвоение

источник

00:26пожаловаться #13

EC

Eugene Chipizubov in Moscow Spark

вот это уже интересно

источник

00:26пожаловаться #14

EC

Eugene Chipizubov in Moscow Spark

у него overwrite

источник

00:27пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

🤔

источник

00:27пожаловаться #16

EC

Eugene Chipizubov in Moscow Spark

еще момент интересный, что после перезапуска запроса на выходе получается другое кол-во файлов

источник

00:28пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Без репартишена?

источник

00:29пожаловаться #18

EC

Eugene Chipizubov in Moscow Spark

да (

источник

00:45пожаловаться #19

SM

Sergey M in Moscow Spark

Всем привет
У меня такой вопрос
Можно ли каким-нибудь образом проверить есть ли item в dataset'e
Т.е. что-то типо
dataset.contains(item)
или
item existsIn(dataset)
Можно конечно filter.count, но мне кажется эти операции более тяжеловесны чем предполагаемый exists

По большому счету мне надо
if (dataset contains item) 1 else 0

источник

17:47пожаловаться #20