Size: a a a

2020 November 10

GP

Grigory Pomadchin in Moscow Spark
я точно не помню апишку так что может ошибаюсь в сигнатурах, но +- такое тебе надо
источник

GP

Grigory Pomadchin in Moscow Spark
источник

t

tenKe in Moscow Spark
спасибо, заработало!
источник

t

tenKe in Moscow Spark
❤️
источник

GP

Grigory Pomadchin in Moscow Spark
балдеж пальцем в небо
источник

t

tenKe in Moscow Spark
/**
* Returns a new copy of this encoder, where the
deserializer is resolved and bound to the
* given schema.
*
* Note that, ideally encoder is used as a container of serde expressions, the resolution and
* binding stuff should happen inside query framework.  However, in some cases we need to
* use encoder as a function to do serialization directly(e.g. Dataset.collect), then we can use
* this method to do resolution and binding outside of query framework.
*/
источник

t

tenKe in Moscow Spark
ну да
источник

t

tenKe in Moscow Spark
понятно)
источник

G

Gev in Moscow Spark
Коллеги. Кто нибудь может дать ссылку на адекватное описание, с примерами, как грамотно использовать repartitioning?
источник

GP

Grigory Pomadchin in Moscow Spark
Gev
Коллеги. Кто нибудь может дать ссылку на адекватное описание, с примерами, как грамотно использовать repartitioning?
да у тебя всегда шафл на репартишоне; тут нет грамотного использования
// если ты про repartition
источник

G

Gev in Moscow Spark
Дк а как тогда оптимизировать чтение большой партиции ( в моем случае вообще партиции отсутствуют)
источник

G

Gev in Moscow Spark
Просто пробовать и увеличивать безмерно объем памяти для executer тоже как то тупо
источник

GP

Grigory Pomadchin in Moscow Spark
а как у тебя могут отсутствовать партиции?
источник

G

Gev in Moscow Spark
Да вот так грамотно мне выгружают данные на HDFS
источник

G

Gev in Moscow Spark
Снапшоты в одну партицию.
источник

G

Gev in Moscow Spark
Причем эту партицию переформировывают. так что даже к дате фалов не привязаться
источник

ИК

Иван Калининский... in Moscow Spark
Gev
Снапшоты в одну партицию.
Rdd - одна партиция? Это текстовый формат в гзипе?
источник

ИК

Иван Калининский... in Moscow Spark
Gev
Причем эту партицию переформировывают. так что даже к дате фалов не привязаться
Ладно, предположим, что имеется один файл, который читается в одну партиции rdd. В таком случае бесполезно даже в данных искать зацепки, потому что изначально это один таск и все преимущества распределенной системы сведены к нулю. Весь набор данных придётся читать и процессить последовательно.

Надеюсь, что такого нигде нет, и там хотя бы огромный паркет, который спарк легко прочитает и создаст rdd с множеством партиций не больше spark.sql.files.maxPartitionBytes.
источник

G

Gev in Moscow Spark
Ну слава богу файл там не один
источник

ИК

Иван Калининский... in Moscow Spark
Нужно больше подробностей, repartition - тонкая тема. Основная тонкость - как бы избавиться от него))
источник