Телеграмм чат группы moscowspark страница 231

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 December 11

SS

Semyon Sinchenko in Moscow Spark

Евгений Глотов

Это понятно, но когда мы выходим в большой суровый мир, где одна кавычка в середине 50-гиговых CSV - лучше всё-таки применять для этого соответствующие инструменты

А чем SparkR отличется в этом смысле от PySpark? И тот и другой конвертят код в инструкции на Scala. Один через Py4j, другой еще как-то.

источник

11:44пожаловаться #1

dp

dbdbdb pssp in Moscow Spark

Etl до этого делал чисто в питоне, так как готовые инструменты оказались слишком тяжёлые

источник

11:44пожаловаться #2

ЕГ

Евгений Глотов... in Moscow Spark

Semyon Sinchenko

А чем SparkR отличется в этом смысле от PySpark? И тот и другой конвертят код в инструкции на Scala. Один через Py4j, другой еще как-то.

Я имею в виду, что питон будет нужен для эйрфлоу, например, а зачем вам решение на двух языках, если можно обойтись одним?

источник

11:45пожаловаться #3

SS

Semyon Sinchenko in Moscow Spark

Евгений Глотов

Я имею в виду, что питон будет нужен для эйрфлоу, например, а зачем вам решение на двух языках, если можно обойтись одним?

Ariflow обычно вызывает bash-operator, а что там внутри кажется не важно. Ну а чтобы DAG-и писать, питон особо знать не надо, они пишутся по примерам. Просто если кто-то знает R, то можно использовать R для коннектов к Spark. Why not?

источник

11:46пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Etl до этого делал чисто в питоне, так как готовые инструменты оказались слишком тяжёлые

Тогда лучше продолжить с пайспарком)

источник

11:47пожаловаться #5

SS

Semyon Sinchenko in Moscow Spark

Евгений Глотов

Тогда лучше продолжить с пайспарком)

Не согласен. По мне, так либо нативные для spark JVM-языки, либо не принципиально, какой именно коннектор.

источник

11:48пожаловаться #6

A

Anton Lebedevich in Moscow Spark

pyspark остает от scala api, а sparkR кажется вообще где-то в углу стоит, и скорее всего отстает от pyspark. поэтмоу если очень надо спарк - можно узнать чуть чуть scala, в спарковом апи она не страшная

источник

11:49пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Semyon Sinchenko

Не согласен. По мне, так либо нативные для spark JVM-языки, либо не принципиально, какой именно коннектор.

То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале

источник

11:49пожаловаться #8

A

Anton Lebedevich in Moscow Spark

ну это смотря как скалу и питон знать, там проблема больше в доступе к внешним либам

источник

11:50пожаловаться #9

Sa

Salam andra in Moscow Spark

А потом упоретесь ждать отработки pandas_udf

источник

11:50пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

А потом упоретесь ждать отработки pandas_udf

Не наблюдал такой проблемы)

источник

11:50пожаловаться #11

SS

Semyon Sinchenko in Moscow Spark

Евгений Глотов

То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале

А у меня другие впечатления как раз... То, что легко делается через scala (например, свой трансформер в Pipeline) превращается в какие-то костыли на PySpark. И с udf та же история... То, что в scala с использованием Option().map(...) пишется в одну строчку, в PySpark превращается в каких-то if-else моснтров, где надо None, Null и т.д. руками обрабатывать.

источник

11:51пожаловаться #12

DZ

Dmitry Zuev in Moscow Spark

Евгений Глотов

То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале

С чего бы это? Чем плохи скаловые удф?

источник

11:53пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Semyon Sinchenko

А у меня другие впечатления как раз... То, что легко делается через scala (например, свой трансформер в Pipeline) превращается в какие-то костыли на PySpark. И с udf та же история... То, что в scala с использованием Option().map(...) пишется в одну строчку, в PySpark превращается в каких-то if-else моснтров, где надо None, Null и т.д. руками обрабатывать.

Везде есть плюсы и минусы)

источник

11:53пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

С чего бы это? Чем плохи скаловые удф?

Нет магического "pip install make_all_work_for_me_in_1_line==0.5")

источник

11:54пожаловаться #15

DZ

Dmitry Zuev in Moscow Spark

Лол кек

источник

11:54пожаловаться #16

Sa

Salam andra in Moscow Spark

Евгений Глотов

Не наблюдал такой проблемы)

https://medium.com/@QuantumBlack/spark-udf-deep-insights-in-performance-f0a95a4d8c62

Spark UDF — Deep insights in performance

Nikhilesh Nukala — Consultant (Data Engineering), Yuhao Zhu — Advanced Analytics Consultant, Guilherme Braccialli — Principal Data…

источник

11:54пожаловаться #17

DZ

Dmitry Zuev in Moscow Spark

Евгений Глотов

Нет магического "pip install make_all_work_for_me_in_1_line==0.5")

И потом гонять это через arrow

источник

11:55пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

За час отрабатывает на 100млн*3к фичей - достаточно быстро, чтобы не париться по поводу производительности

источник

11:55пожаловаться #19

DZ

Dmitry Zuev in Moscow Spark

Что это за чудо метод то, что на скале его нет?

источник

12:03пожаловаться #20