Size: a a a

2021 January 19

А

Алексей in Moscow Spark
да, от batchsize зависит, но еще больше зависит от доп проверок на принимающей стороне
источник

А

Алексей in Moscow Spark
при батч загрузке нужно отключать индексы, fk, триггеры и констрейны
источник

А

Алексей in Moscow Spark
а лучше лить в staging, а потом делать exchage partition
источник

NN

No Name in Moscow Spark
Eugene Chipizubov
Оффтоп. Fetchsize зависит напрямую от размера строки, тупо увеличивать не стоит.
Согласен
источник

AK

Andrew Konstantinov in Moscow Spark
Какой есть best practices извлечения json из string пайспарком?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Andrew Konstantinov
Какой есть best practices извлечения json из string пайспарком?
from_json?
источник

AK

Andrew Konstantinov in Moscow Spark
А ещё
источник

AK

Andrew Konstantinov in Moscow Spark
Когда мне неизвестна схема изначально
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Кажется, что всё остальное будет очень накладно
источник

AK

Andrew Konstantinov in Moscow Spark
Ну да) поэтому и спросил
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А как ты планируешь с ним работать?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вот нет схемы, но тебе же надо из него что-то извлечь как-то, видимо
источник

AK

Andrew Konstantinov in Moscow Spark
Я хочу в foreachbatch чекать схему
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Не понял
источник

AK

Andrew Konstantinov in Moscow Spark
Короче,есть pyspark streaming,есть foreachbatch,есть json со схемой данных.надо проверять приходящие сообщения из Кафки на то,что схема данных ок
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ох. Кажется можно написать udf
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но будет больно всё равно, конечно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Можно написать на джаве и будет лучше
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Видимо это и есть правильное решение: Scala/Java UDF и работа с ним
источник

AK

Andrew Konstantinov in Moscow Spark
Или скала udf и потом заюзать в pyspark 😀
источник