Size: a a a

2020 May 28

M

Mi in Moscow Spark
проблема датасетов в том что это черный ящик для каталиста
источник

DZ

Dmitry Zuev in Moscow Spark
Andrey Smirnov
интересно, а как часто используются Dataset, по моей практике, если наберется 5%, то уже хорошо, rdd чаще используется
90% времени, когда у тебя табулар дата
источник

AS

Andrey Smirnov in Moscow Spark
Dmitry Zuev
90% времени, когда у тебя табулар дата
когда у меня табулар дата, это 90% датафрейм, осталось услышать мнение остальных
источник

DZ

Dmitry Zuev in Moscow Spark
Andrey Smirnov
когда у меня табулар дата, это 90% датафрейм, осталось услышать мнение остальных
Питон?
источник

AS

Andrey Smirnov in Moscow Spark
Dmitry Zuev
Питон?
скала
источник

DZ

Dmitry Zuev in Moscow Spark
Тогда странно, зачем антайпед использовать где его можно не использовать
источник

DZ

Dmitry Zuev in Moscow Spark
Мы если идём в дф то на выходе все равно тк дс приводим, чтобы на рантайме не падало из-за кривых рук
источник

T

T in Moscow Spark
Dmitry Zuev
Мы если идём в дф то на выходе все равно тк дс приводим, чтобы на рантайме не падало из-за кривых рук
+ ещё очень удобно поддерживать потому что весь контекст всегда под рукой
источник

NK

Nikita Kozlovskii in Moscow Spark
Mi
проблема датасетов в том что это черный ящик для каталиста
Так датафрейм это всего лишь датасет с типом Row.
Т.е., получается что катаклист умеет работать только с Row?
Емнип это не совсем так
источник

M

Mi in Moscow Spark
Nikita Kozlovskii
Так датафрейм это всего лишь датасет с типом Row.
Т.е., получается что катаклист умеет работать только с Row?
Емнип это не совсем так
Я про typed dataset, вот есть у вас лямбда с двумя энтити классами, и каталист уже не знает что ты с ними делаешь и что там можно оптимизировать
источник

NK

Nikita Kozlovskii in Moscow Spark
Окей, да
источник

M

Mi in Moscow Spark
тот же cogroup с key retriever который уже не знает  что там за ключ по которому ты хочешь группировать даже если там просто один филд и  соответственно не может опираться на то что данные уже пресортированны и разложены как надо
источник

AS

Andrey Smirnov in Moscow Spark
Dmitry Zuev
Тогда странно, зачем антайпед использовать где его можно не использовать
банально проще, в zeppelin  набросали, потом поубирали все лишнее, причесали, готовый spark-submit. Нет ресурсов выписывать все эти case class, да и типы не панацея, больше страдаем от самих данных (грубо говоря урлы вида https://ээээ, гораздо чаще попадаются чем 146).
источник

DZ

Dmitry Zuev in Moscow Spark
Andrey Smirnov
банально проще, в zeppelin  набросали, потом поубирали все лишнее, причесали, готовый spark-submit. Нет ресурсов выписывать все эти case class, да и типы не панацея, больше страдаем от самих данных (грубо говоря урлы вида https://ээээ, гораздо чаще попадаются чем 146).
В этом случае мб. У нас в прод не идут датафреймы. Юнит тесты намного приятнее с дс
источник

DZ

Dmitry Zuev in Moscow Spark
Andrey Smirnov
банально проще, в zeppelin  набросали, потом поубирали все лишнее, причесали, готовый spark-submit. Нет ресурсов выписывать все эти case class, да и типы не панацея, больше страдаем от самих данных (грубо говоря урлы вида https://ээээ, гораздо чаще попадаются чем 146).
Ну тут вам dq в помощь
источник

AS

Andrey Smirnov in Moscow Spark
Dmitry Zuev
В этом случае мб. У нас в прод не идут датафреймы. Юнит тесты намного приятнее с дс
С этим сложнее, обычно это скорее интеграционые тесты, считываем файлы, проверяем на выходе.
Но есть и юнит-тесты, конечно с df не так удобно, но терпимо.
А что такое dq?
источник

DZ

Dmitry Zuev in Moscow Spark
Data quality
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Mi
делаете суппорт либу для спарка на основе java API?
Ближе к скале, чем к джаве, кстати 😊
источник

Sa

Salam andra in Moscow Spark
Неllo
источник

M

Mi in Moscow Spark
Паша Финкельштейн
Ближе к скале, чем к джаве, кстати 😊
ну котлин это  что-то между
источник