Евгений Глотов
То, что можно сделать за пару минут на pyspark+pandas_udf, упоретесь, чтобы повторить на скале
А у меня другие впечатления как раз... То, что легко делается через scala (например, свой трансформер в Pipeline) превращается в какие-то костыли на PySpark. И с udf та же история... То, что в scala с использованием Option().map(...) пишется в одну строчку, в PySpark превращается в каких-то if-else моснтров, где надо None, Null и т.д. руками обрабатывать.