Телеграмм чат группы moscowspark страница 541

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 February 09

А

Алексей in Moscow Spark

Пробовал, не работает

Что если создать колонку и по ней сделать репартишен без expr. Тоже будет ошибка?

источник

20:11пожаловаться #1

M

Mi in Moscow Spark

Что если создать колонку и по ней сделать репартишен без expr. Тоже будет ошибка?

Да, но там не ошибка, а просто вся запись уходит на два экзекутора которые отваливаются по памяти

источник

20:12пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

в таком случае rand() * 8 - непохоже, что работает((

источник

20:12пожаловаться #3

AL

Anton Lashin in Moscow Spark

Кто-нибудь может подсказать почему Спарк при записи двух больших партиций с
repartition(my_col, rand * 8)+ writer.partitionBy(my_col) все равно оставляет большие жирные партиции и не учитывает никак rand?

а сколько уникальных значений у колонки my_col? а то может их 2 всего

источник

20:12пожаловаться #4

M

Mi in Moscow Spark

а сколько уникальных значений у колонки my_col? а то может их 2 всего

Так их и есть два, и я собственно пытаюсь решить проблему записи

источник

20:13пожаловаться #5

AL

Anton Lashin in Moscow Spark

а репартишен разве может отправить одинаковые значения в разные партиции?

источник

20:13пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

вообще, лучше привести к Int: ( rand() * 8 ) cast IntegerType

источник

20:13пожаловаться #7

M

Mi in Moscow Spark

а репартишен разве может отправить одинаковые значения в разные партиции?

Так я добавлял рандомный коэффициент, но это не сработало

источник

20:13пожаловаться #8

ИК

Иван Калининский... in Moscow Spark

а репартишен разве может отправить одинаковые значения в разные партиции?

нет

источник

20:13пожаловаться #9

EC

Eugene Chipizubov in Moscow Spark

они не резолвят переменные окружения, нужен полный путь

здесь имел в виду, что полный путь указываю где hive живет до директории lib
/etc/hive/lib

источник

20:13пожаловаться #10

EC

Eugene Chipizubov in Moscow Spark

java.lang.ClassNotFoundException: org.apache.spark.sql.hive.HiveSessionStateBuilder

источник

20:14пожаловаться #11

EC

Eugene Chipizubov in Moscow Spark

также не может найти класс

источник

20:14пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

Так я добавлял рандомный коэффициент, но это не сработало

рандомный коэффициент не сработал, это факт, а почему там 8? может стоит влепить 128 или еще больше?

источник

20:14пожаловаться #13

M

Mi in Moscow Spark

Иван Калининский

рандомный коэффициент не сработал, это факт, а почему там 8? может стоит влепить 128 или еще больше?

Ну 8 это для примера, там число вычисляется относительно желаемого количества строк в файле, тем не менее нифига не пишет он параллельно

источник

20:15пожаловаться #14

А

Алексей in Moscow Spark

Да, но там не ошибка, а просто вся запись уходит на два экзекутора которые отваливаются по памяти

Так можно увидеть, что сгенерировал ранд, может легло с перекосом или меньше 1

источник

20:16пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

Ну 8 это для примера, там число вычисляется относительно желаемого количества строк в файле, тем не менее нифига не пишет он параллельно

вообще, лучше привести к Int: ( rand() * 8 ) cast IntegerType

источник

20:16пожаловаться #16

A

Alex in Moscow Spark

Eugene Chipizubov

также не может найти класс

что-то у вас с класспасом, так как этот класс в spark-hive

источник

20:16пожаловаться #17

M

Mi in Moscow Spark

Так можно увидеть, что сгенерировал ранд, может легло с перекосом или меньше 1

Это я то тоже проверял, там отлично всё распределилось на 143 партиции, но запись всё равно свалилась на два экзекутора

источник

20:18пожаловаться #18

M

Mi in Moscow Spark

Хотя стоп, там стейдж с 143 партициями не начал даже выполняться, свалилось чуть раньше, буду смотреть почему

источник

20:20пожаловаться #19

EC

Eugene Chipizubov in Moscow Spark

если хдп то либы там будут

у меня ванильный hdp, hive-clirnt директории нет. Блин, ощущение, что игнорит spark.sql.hive.metastore.jars и я что то не так делаю

источник

20:20пожаловаться #20