Телеграмм чат группы moscowspark страница 325

мне сложно сказать как это в standalone / k8s / yarn-based спарке обстоит, но в Databricks нормально с этим, если стримить из сырца который replayable (kafka / kinesis). Тогда по метаданным смотрят на скорость обработки относительно триггера (стоит, скажем триггер в 1 минуту, а статистика батча показывает что обработка происходит за 2 минуты - тогда будет апскейл)

источник

20:48пожаловаться #4

Renarde in Moscow Spark

Replayable нужен чтобы в случае downscale понимать что уже было прочитано, а что нет, так что какой-нибудь soket-based стрим стараемся тоже в event service заворачивать

источник

20:51пожаловаться #5

KrivdaTheTriewe in Moscow Spark

понял

источник

20:57пожаловаться #6

KrivdaTheTriewe in Moscow Spark

спасибо

источник

20:57пожаловаться #7

KrivdaTheTriewe in Moscow Spark

у нас реплейбл

источник

20:58пожаловаться #8

KrivdaTheTriewe in Moscow Spark

К сожалению датабрикса нету)

источник

20:58пожаловаться #9

Mi in Moscow Spark

Коллеги, вопрос по спарку, можем ли мы читать и писать с bucket by/distribute by/cluster by без метастора? Просто в папку. Сможет ли Спарк понять что данные уже удобно лежат? Или как ему об этом сказать

источник

22:05пожаловаться #10

Mi in Moscow Spark

источник

22:17пожаловаться #11

2020 April 22

Renarde in Moscow Spark

Насколько я помню, не сможет, потому что статистика бакетов хранится в метасторе, а не в файлах на фс

источник

00:03пожаловаться #12

Mi in Moscow Spark

Renarde

Насколько я помню, не сможет, потому что статистика бакетов хранится в метасторе, а не в файлах на фс

Грустно слышать, спасибо

источник

00:04пожаловаться #13

Anton Alekseev in Moscow Spark

Всем привет. Ребята я уже приходил в чатик с проблемой переполнения буфера pyarrow. (https://issues.apache.org/jira/browse/ARROW-4890
), но опять возникла такая проблема. В общем дело в том что после группировки получаются слишком большие массивы данных чтобы передать это в pudf, проиходит переполнение буфера. И вроде в ишью выше есть ссылка на фикс, который уже залили в новые версии pyarrow. Удалось завести новый pyarrow (0.17.0) (и заодно пофиксить ошибку обратной совместимости версий), но вылазит новая обшибка pyarrow. OSError: Invalid IPC message: negative bodyLength - выглядит как тоже самое переполнение, кто-то сталкивался, удалось пофиксить? гугл тут уже не помогает.

источник

10:37пожаловаться #14

Anton Alekseev in Moscow Spark

В общем решилось (не прямо решение, но хоть заработало) как всегда с такой ошибкой, выпиливанием лишних колонок, которые прилетают в pudf.

источник

11:27пожаловаться #15

Dmitriy Yampolskiy in Moscow Spark

Привет. Возникла проблема с использованием union. Как будто бы в колонке получаются неожиданные значения, которых не было ни в одном из объединяемых датафреймов. Я совсем недавно начал работать со спарком, так что, наверное, я делатю что-то простое и глупое. Буду благодарен за помощь. Проблему проще показать на скринах.

источник

21:35пожаловаться #16

Dmitriy Yampolskiy in Moscow Spark

источник

21:35пожаловаться #17

Dmitriy Yampolskiy in Moscow Spark

источник

21:35пожаловаться #18

Dmitriy Yampolskiy in Moscow Spark

источник

21:35пожаловаться #19

Andrey Siunov in Moscow Spark

@yampolson а какие схемы у этих dataframe? IIRC, union сопоставляет столбцы не по имени, а в том порядке, в котором они даны в схеме.

источник

21:45пожаловаться #20