Телеграмм чат группы moscowspark страница 621

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1048 membersпожаловаться на группу

2021 April 04

VS

Vasily Safronov in Moscow Spark

Повелитель Бури

Тут помогает процедурный подход

Каждый блок это 1 преобразование который порождает новую таблицу
А dataflow решается через airfow

ровно так мы и планировали поступить, правда для dataflow использовать meltano от gitlab, который из коробки включает dbt и airflow, но взвесив за и против, решили, что гибкости спарка все равно в таком подходе не достичь, т.к. нет четкого разделения данных и логики, в свою очередь нет возможности реализовать логику с помощью классических средств разработки (дебага, эксепшенов, профайлинга), нет возможности использовать функциональный подход, соответственно нет нормального тестирования, даже нет возможности провесить логами внутренности шага

источник

11:41пожаловаться #1

VS

Vasily Safronov in Moscow Spark

и все это в конечном счете приводит к увеличению time-to-market, увеличивает риски, ну и от самого процесса разработки приятного мало

источник

11:43пожаловаться #2

e

er@essbase.ru in Moscow Spark

Vasily Safronov

и все это в конечном счете приводит к увеличению time-to-market, увеличивает риски, ну и от самого процесса разработки приятного мало

В итоге у вас голый Спарк?

источник

13:27пожаловаться #3

VS

Vasily Safronov in Moscow Spark

В итоге у вас голый Спарк?

на голом спарк далеко не уедешь, надо же где-то хранить данные, присматриваемся к azure data lake v2 + databricks

источник

13:38пожаловаться #4

e

er@essbase.ru in Moscow Spark

Vasily Safronov

на голом спарк далеко не уедешь, надо же где-то хранить данные, присматриваемся к azure data lake v2 + databricks

да, вот про облака вопрос ))
я правильно понимаю что там место хранения и расчета разделены ? т.е. концепция - там где храним , там и считаем не выполняется..
- или там скорость чтения сопоставима с локальным диском ?

источник

13:41пожаловаться #5

e

er@essbase.ru in Moscow Spark

Vasily Safronov

на голом спарк далеко не уедешь, надо же где-то хранить данные, присматриваемся к azure data lake v2 + databricks

оркестратор какой выбрали ?

источник

13:42пожаловаться #6

VS

Vasily Safronov in Moscow Spark

да, вот про облака вопрос ))
я правильно понимаю что там место хранения и расчета разделены ? т.е. концепция - там где храним , там и считаем не выполняется..
- или там скорость чтения сопоставима с локальным диском ?

как раз в такой связке концепция где храним, там и считаем - выполняется, hdfs, mapreduce, spark все дела… либо я не понял вопрос

источник

13:43пожаловаться #7

VS

Vasily Safronov in Moscow Spark

оркестратор какой выбрали ?

да я думаю тем же airflow обойдемся

источник

13:46пожаловаться #8

e

er@essbase.ru in Moscow Spark

Vasily Safronov

как раз в такой связке концепция где храним, там и считаем - выполняется, hdfs, mapreduce, spark все дела… либо я не понял вопрос

вот разные квадратики )) ( -это физическое разделение или логическое ? )

источник

13:48пожаловаться #9

VS

Vasily Safronov in Moscow Spark

скорее логическое, так как спарк джобы выполняются на том же кластере, что и ADLS, другое дело, что вам при реализации пайплайна нужно его оптимизировать его таким образом, чтобы сократить межсетевой обмен между датанодами - здесь я пока не подскажу, только начал копать в эту сторону

источник

14:12пожаловаться #10

VS

Vasily Safronov in Moscow Spark

я пока планирую как сказал @asm0dey выше просто перетащить все свои CTE в отдельные методы на спарке и забенчмарчить - расскажу что получится )

источник

14:14пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Яна?

источник

21:19пожаловаться #12

e

er@essbase.ru in Moscow Spark

Скажите а что и как вы тестируете в Спарке для DF ?
есть ли примеры кода когда тестами покрывается качество данных, результат расчета .
можно ли в самом расчете проверить рухнул ли определенный таск и какие были метрики DF в момент падения ?

источник

21:37пожаловаться #13

T

T in Moscow Spark

В чем смысл переписывать на df если переписывать то над брать ds . slowpoke.jpg

источник

21:54пожаловаться #14

N

Nikita Blagodarnyy in Moscow Spark

Скажите а что и как вы тестируете в Спарке для DF ?
есть ли примеры кода когда тестами покрывается качество данных, результат расчета .
можно ли в самом расчете проверить рухнул ли определенный таск и какие были метрики DF в момент падения ?

Тестируем скала-тестом и тестконтейнерами.
Есть, конечно. Написал ты например функцию, которая df агрегирует row_number-ом, сделал входной детальный датафрейм, скормил его функции, получил схлопнутый, скормил его ассерту-профит.
про метрики это надо в сторону аккумуляторов смотреть.

источник

21:54пожаловаться #15

NN

No Name in Moscow Spark

В чем смысл переписывать на df если переписывать то над брать ds . slowpoke.jpg

Мб пайспарк же

источник

21:55пожаловаться #16

T

T in Moscow Spark

Мб пайспарк же

Ой как больно

источник

21:55пожаловаться #17

e

er@essbase.ru in Moscow Spark

Nikita Blagodarnyy

Тестируем скала-тестом и тестконтейнерами.
Есть, конечно. Написал ты например функцию, которая df агрегирует row_number-ом, сделал входной детальный датафрейм, скормил его функции, получил схлопнутый, скормил его ассерту-профит.
про метрики это надо в сторону аккумуляторов смотреть.

на гите есть примеры подобного похода ?

источник

21:55пожаловаться #18

NN

No Name in Moscow Spark

Ой как больно

Да нормально

источник

21:55пожаловаться #19

АР

Андрей Романов... in Moscow Spark

Мб пайспарк же

для pyspark есть https://github.com/MrPowers/chispa

для spark на java есть https://github.com/holdenk/spark-testing-base

для spark на скала есть https://github.com/holdenk/spark-testing-base или https://github.com/MrPowers/spark-fast-tests

MrPowers/chispa

PySpark test helper methods with beautiful error messages - MrPowers/chispa

источник

21:56пожаловаться #20