Size: a a a

2019 December 11

SS

Semyon Sinchenko in Moscow Spark
Евгений Глотов
Это понятно, но когда мы выходим в большой суровый мир, где одна кавычка в середине 50-гиговых CSV - лучше всё-таки применять для этого соответствующие инструменты
А чем SparkR отличется в этом смысле от PySpark? И тот и другой конвертят код в инструкции на Scala. Один через Py4j, другой еще как-то.
источник

dp

dbdbdb pssp in Moscow Spark
Etl до этого делал чисто в питоне, так как готовые инструменты оказались слишком тяжёлые
источник

ЕГ

Евгений Глотов... in Moscow Spark
Semyon Sinchenko
А чем SparkR отличется в этом смысле от PySpark? И тот и другой конвертят код в инструкции на Scala. Один через Py4j, другой еще как-то.
Я имею в виду, что питон будет нужен для эйрфлоу, например, а зачем вам решение на двух языках, если можно обойтись одним?
источник

SS

Semyon Sinchenko in Moscow Spark
Евгений Глотов
Я имею в виду, что питон будет нужен для эйрфлоу, например, а зачем вам решение на двух языках, если можно обойтись одним?
Ariflow обычно вызывает bash-operator, а что там внутри кажется не важно. Ну а чтобы DAG-и писать, питон особо знать не надо, они пишутся по примерам. Просто если кто-то знает R, то можно использовать R для коннектов к Spark. Why not?
источник

ЕГ

Евгений Глотов... in Moscow Spark
dbdbdb pssp
Etl до этого делал чисто в питоне, так как готовые инструменты оказались слишком тяжёлые
Тогда лучше продолжить с пайспарком)
источник

SS

Semyon Sinchenko in Moscow Spark
Евгений Глотов
Тогда лучше продолжить с пайспарком)
Не согласен. По мне, так либо нативные для spark JVM-языки, либо не принципиально, какой именно коннектор.
источник

A

Anton Lebedevich in Moscow Spark
pyspark остает от scala api, а sparkR кажется вообще где-то в углу стоит, и скорее всего отстает от pyspark. поэтмоу если очень надо спарк - можно узнать чуть чуть scala, в спарковом апи она не страшная
источник

ЕГ

Евгений Глотов... in Moscow Spark
Semyon Sinchenko
Не согласен. По мне, так либо нативные для spark JVM-языки, либо не принципиально, какой именно коннектор.
То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале
источник

A

Anton Lebedevich in Moscow Spark
ну это смотря как скалу и питон знать, там проблема больше в доступе к внешним либам
источник

Sa

Salam andra in Moscow Spark
А потом упоретесь ждать отработки pandas_udf
источник

ЕГ

Евгений Глотов... in Moscow Spark
Salam andra
А потом упоретесь ждать отработки pandas_udf
Не наблюдал такой проблемы)
источник

SS

Semyon Sinchenko in Moscow Spark
Евгений Глотов
То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале
А у меня другие впечатления как раз... То, что легко делается через scala (например, свой трансформер в Pipeline) превращается в какие-то костыли на PySpark. И с udf та же история... То, что в scala с использованием Option().map(...) пишется в одну строчку, в PySpark превращается в каких-то if-else моснтров, где надо None, Null и т.д. руками обрабатывать.
источник

DZ

Dmitry Zuev in Moscow Spark
Евгений Глотов
То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале
С чего бы это? Чем плохи скаловые удф?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Semyon Sinchenko
А у меня другие впечатления как раз... То, что легко делается через scala (например, свой трансформер в Pipeline) превращается в какие-то костыли на PySpark. И с udf та же история... То, что в scala с использованием Option().map(...) пишется в одну строчку, в PySpark превращается в каких-то if-else моснтров, где надо None, Null и т.д. руками обрабатывать.
Везде есть плюсы и минусы)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Dmitry Zuev
С чего бы это? Чем плохи скаловые удф?
Нет магического "pip install make_all_work_for_me_in_1_line==0.5")
источник

DZ

Dmitry Zuev in Moscow Spark
Лол кек
источник

Sa

Salam andra in Moscow Spark
Евгений Глотов
Не наблюдал такой проблемы)
источник

DZ

Dmitry Zuev in Moscow Spark
Евгений Глотов
Нет магического "pip install make_all_work_for_me_in_1_line==0.5")
И потом гонять это через arrow
источник

ЕГ

Евгений Глотов... in Moscow Spark
За час отрабатывает на 100млн*3к фичей - достаточно быстро, чтобы не париться по поводу производительности
источник

DZ

Dmitry Zuev in Moscow Spark
Что это за чудо метод то, что на скале его нет?
источник