Телеграмм чат группы moscowspark страница 673

Привет, столкнулся с таким поведением спарка: есть колонка с пропусками в датафрейме, хочу её фильтрануть по условию !=2, смотрю результат: у меня дропнулись строчки не только с двойками но и с пропусками. Если фильтровать по ==2, то остаются строчки только с 2 (что логично). Баг это или фича?
Что именно меня смущает: как мне кажется, такое поведение не соответствует логике - есть закон в булевой алгебре, что x + !x =1, а тут получается, что df.filter(myCondition) и df.filter(!myCondition) при объединении не дают первоначальный датасет

источник

14:56пожаловаться #4

АА

Артем Анистратов... in Moscow Spark

Может не правильно понял твою ситуацию, почему просто не добавить условие || col is null?

источник

15:03пожаловаться #5

АА

Артем Анистратов... in Moscow Spark

Если значения колонок null, то можно говорить, что null не в полной мере соответствует формальной логике, ибо «0 это присутствие отсутствия, а null это отсутствие присутсвия»

источник

15:05пожаловаться #6

Bakhruz Dzhafarov in Moscow Spark

Конкретно эту ситуацию обойти можно)
Вопрос про то, что насколько логично такое поведение: при фильтрации != abc удалять и строки с пропусками

источник

15:06пожаловаться #7

АА

Артем Анистратов... in Moscow Spark

Ты в принципе не можешь сравнивать null, ибо null != null, аналогично и любое другое сравнение null с другими значениями.

Вообще я видимо не в ту степь тебя веду.
Если я не путаюсь то ты опираешься на формальную(двузначную логику), понятие null, оно же unknown по сути относится к троичной логике. Там немного другие правила

источник

15:12пожаловаться #8

АА

Артем Анистратов... in Moscow Spark

Есть вот такое правило, касаемо СУБД:
Правила операций с UNKNOWN
Любая операция сравнения любого значения с NULL или UNKNOWN даёт в результате UNKNOWN.
not UNKNOWN = UNKNOWN
TRUE and UNKNOWN = UNKNOWN
FALSE and UNKNOWN = FALSE
TRUE or UNKNOWN = TRUE
FALSE or UNKNOWN = UNKNOWN
TRUE xor UNKNOWN = UNKNOWN
FALSE xor UNKNOWN = UNKNOWN

источник

15:14пожаловаться #9

Bakhruz Dzhafarov in Moscow Spark

Спасибо, стало понятнее

источник

15:17пожаловаться #10

tenKe in Moscow Spark

есть nullsafe =!=

источник

15:27пожаловаться #11

Eugene Chipizubov in Moscow Spark

Ну и
Null <=> null есть True

источник

21:06пожаловаться #12

Nikita Blagodarnyy in Moscow Spark

Вот это трешово довольно.

источник

22:29пожаловаться #13

No Name in Moscow Spark

А это как переводится на примитивный русский?

источник

22:54пожаловаться #14

Nikita Blagodarnyy in Moscow Spark

Если с обеих сторон не налл или с обеих сторон налл, то труе. Иначе фалсе.

источник

23:00пожаловаться #15

No Name in Moscow Spark

А, данке шон

источник

23:00пожаловаться #16

2021 May 16

Eugene Chipizubov in Moscow Spark

In order to compare the NULL values for equality, Spark provides a null-safe equal operator (‘<=>’), which returns False when one of the operand is NULL and returns ‘True when both the operands are NULL.

источник

05:25пожаловаться #17

Eugene Chipizubov in Moscow Spark

https://spark.apache.org/docs/3.0.0-preview/sql-ref-null-semantics.html

источник

05:26пожаловаться #18

АА

Артем Анистратов... in Moscow Spark

Ребята, могли бы подсказать, есть ли опасность(с точки зрения производительности) установления слишком большого fetchSize при записе/чтении jdbc?

Обычно использую 10 тыс, но возникает вопрос почему бы не 100?
Играют ли роль размера кэша rom СУБД, при котором после достижения некого размера пакета(batch’а) сами диски не смогут обеспечить нужную скорость записи?

источник

09:14пожаловаться #19

Rogoley in Moscow Spark

100к оптимально. Можно ещё Воркеров увеличить в постгре и под такое же кол-во параллельности записи добавить.

источник

10:11пожаловаться #20