Телеграмм чат группы moscowspark страница 511

Size: a a a

Moscow Spark

941 membersпожаловаться на группу

2021 January 19

Алексей in Moscow Spark

да, от batchsize зависит, но еще больше зависит от доп проверок на принимающей стороне

источник

14:12пожаловаться #1

Алексей in Moscow Spark

при батч загрузке нужно отключать индексы, fk, триггеры и констрейны

источник

14:12пожаловаться #2

Алексей in Moscow Spark

а лучше лить в staging, а потом делать exchage partition

источник

14:12пожаловаться #3

No Name in Moscow Spark

Eugene Chipizubov

Оффтоп. Fetchsize зависит напрямую от размера строки, тупо увеличивать не стоит.

Согласен

источник

14:29пожаловаться #4

Andrew Konstantinov in Moscow Spark

Какой есть best practices извлечения json из string пайспарком?

источник

15:14пожаловаться #5

ПФ

Паша Финкельштейн... in Moscow Spark

Andrew Konstantinov

Какой есть best practices извлечения json из string пайспарком?

from_json?

источник

15:25пожаловаться #6

Andrew Konstantinov in Moscow Spark

А ещё

источник

15:25пожаловаться #7

Andrew Konstantinov in Moscow Spark

Когда мне неизвестна схема изначально

источник

15:26пожаловаться #8

ПФ

Паша Финкельштейн... in Moscow Spark

Кажется, что всё остальное будет очень накладно

источник

15:26пожаловаться #9

Andrew Konstantinov in Moscow Spark

Ну да) поэтому и спросил

источник

15:26пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

А как ты планируешь с ним работать?

источник

15:26пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Вот нет схемы, но тебе же надо из него что-то извлечь как-то, видимо

источник

15:27пожаловаться #12

Andrew Konstantinov in Moscow Spark

Я хочу в foreachbatch чекать схему

источник

15:27пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

Не понял

источник

15:27пожаловаться #14

Andrew Konstantinov in Moscow Spark

Короче,есть pyspark streaming,есть foreachbatch,есть json со схемой данных.надо проверять приходящие сообщения из Кафки на то,что схема данных ок

источник

15:28пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Ох. Кажется можно написать udf

источник

15:29пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

Но будет больно всё равно, конечно

источник

15:29пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Можно написать на джаве и будет лучше

источник

15:30пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Видимо это и есть правильное решение: Scala/Java UDF и работа с ним

источник

15:30пожаловаться #19

Andrew Konstantinov in Moscow Spark

Или скала udf и потом заюзать в pyspark 😀

источник

15:32пожаловаться #20