Телеграмм чат группы moscowspark страница 478

/**
* Returns a new copy of this encoder, where the deserializer is resolved and bound to the
* given schema.
*
* Note that, ideally encoder is used as a container of serde expressions, the resolution and
* binding stuff should happen inside query framework. However, in some cases we need to
* use encoder as a function to do serialization directly(e.g. Dataset.collect), then we can use
* this method to do resolution and binding outside of query framework.
*/

источник

15:49пожаловаться #6

tenKe in Moscow Spark

ну да

источник

15:49пожаловаться #7

tenKe in Moscow Spark

понятно)

источник

15:49пожаловаться #8

Gev in Moscow Spark

Коллеги. Кто нибудь может дать ссылку на адекватное описание, с примерами, как грамотно использовать repartitioning?

источник

17:05пожаловаться #9

Grigory Pomadchin in Moscow Spark

Gev

Коллеги. Кто нибудь может дать ссылку на адекватное описание, с примерами, как грамотно использовать repartitioning?

да у тебя всегда шафл на репартишоне; тут нет грамотного использования
// если ты про repartition

источник

17:06пожаловаться #10

Gev in Moscow Spark

Дк а как тогда оптимизировать чтение большой партиции ( в моем случае вообще партиции отсутствуют)

источник

17:07пожаловаться #11

Gev in Moscow Spark

Просто пробовать и увеличивать безмерно объем памяти для executer тоже как то тупо

источник

17:07пожаловаться #12

Grigory Pomadchin in Moscow Spark

а как у тебя могут отсутствовать партиции?

источник

17:08пожаловаться #13

Gev in Moscow Spark

Да вот так грамотно мне выгружают данные на HDFS

источник

17:08пожаловаться #14

Gev in Moscow Spark

Снапшоты в одну партицию.

источник

17:08пожаловаться #15

Gev in Moscow Spark

Причем эту партицию переформировывают. так что даже к дате фалов не привязаться

источник

17:09пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

Gev

Снапшоты в одну партицию.

Rdd - одна партиция? Это текстовый формат в гзипе?

источник

17:16пожаловаться #17

ИК

Иван Калининский... in Moscow Spark

Gev

Причем эту партицию переформировывают. так что даже к дате фалов не привязаться

Ладно, предположим, что имеется один файл, который читается в одну партиции rdd. В таком случае бесполезно даже в данных искать зацепки, потому что изначально это один таск и все преимущества распределенной системы сведены к нулю. Весь набор данных придётся читать и процессить последовательно.

Надеюсь, что такого нигде нет, и там хотя бы огромный паркет, который спарк легко прочитает и создаст rdd с множеством партиций не больше spark.sql.files.maxPartitionBytes.

источник

17:23пожаловаться #18

Gev in Moscow Spark

Ну слава богу файл там не один

источник

17:25пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

Нужно больше подробностей, repartition - тонкая тема. Основная тонкость - как бы избавиться от него))

источник

17:26пожаловаться #20