Size: a a a

2020 May 29

AZ

Alexey Zinoviev in Moscow Spark
Резюмирую: ты делаешь полезное дело для подмножества спарководов, но в силу сложившейся практики и вектора датабрикс ты, конечно, будешь сталкиваться с "а зачем ваще это все"
источник

AS

Andrey Smirnov in Moscow Spark
Паша Финкельштейн
На датасетах мы получаем тупл (когда используем joinWith), а вот на датафреймах мы получаем датафрейм )
И вот у тебя три подряд джойна и внутри никакого автодополнения, непонятно как обращаться к полям вообще, приходится экспериментально подбирать магические строки если какие-то датафреймы были неименованными… В общем много боли, которую я не смог превзойти.
надеюсь вы собрали фокус группу и по ней вы пилите продукт. При неправильных данных, (поле в orc было int, а стало string, dataset так же прекрасно упадет в рантайме)
источник

AS

Andrey Smirnov in Moscow Spark
Alexey Zinoviev
Резюмирую: ты делаешь полезное дело для подмножества спарководов, но в силу сложившейся практики и вектора датабрикс ты, конечно, будешь сталкиваться с "а зачем ваще это все"
+1
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Alexey Zinoviev
Резюмирую: ты делаешь полезное дело для подмножества спарководов, но в силу сложившейся практики и вектора датабрикс ты, конечно, будешь сталкиваться с "а зачем ваще это все"
да, я знаю, я не пытаюсь спасти мир от динамизма :)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А ответ на вопрос про сравнение датасетов против датафреймов ответа нет, да?
источник

GT

Gennady Timofeev in Moscow Spark
Alexey Zinoviev
Ну разбивка sql на вызовы функций даёт больше ощущения, что ты программист)))
источник

GT

Gennady Timofeev in Moscow Spark
Паша Финкельштейн
Кстати, а есть какие-то бенчмарки, которые показывают что датасеты быстрее? Я такое слышал, но сам построить бенчмарк не могу потому что не понимаю как
А с чего датасеты чего-либо быстрее, чем датасеты роу? Скорее медленнее, если используешь с крио без каталиста хех. Может быть быстрее, потому что не надо писать абракадабру в скл, чтобы решить задачу, а достаточно набросать маленькую функцию для парсинга, например🤔
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gennady Timofeev
А с чего датасеты чего-либо быстрее, чем датасеты роу? Скорее медленнее, если используешь с крио без каталиста хех. Может быть быстрее, потому что не надо писать абракадабру в скл, чтобы решить задачу, а достаточно набросать маленькую функцию для парсинга, например🤔
Да без проблем, но хоть какие-нибудь бенчмарки есть?  Я не opinionated, мне надо понять
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Не, меня не интересует крио конечно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
только нативные кодеки
источник

ПФ

Паша Финкельштейн... in Moscow Spark
(потому что у меня в котлине нативные кодеки)
источник

DZ

Dmitry Zuev in Moscow Spark
Паша Финкельштейн
Мне казалось что для этого есть Dask?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
о, @zaleslaw, а такую штуку ты крутил?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Спасибо, я даже не слышал
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Увидел conda-forge, поплохело
источник

N

Nikolay in Moscow Spark
Gennady Timofeev
А с чего датасеты чего-либо быстрее, чем датасеты роу? Скорее медленнее, если используешь с крио без каталиста хех. Может быть быстрее, потому что не надо писать абракадабру в скл, чтобы решить задачу, а достаточно набросать маленькую функцию для парсинга, например🤔
а как на это влияет крио?
источник

DZ

Dmitry Zuev in Moscow Spark
Паша Финкельштейн
Спасибо, я даже не слышал
На спарксаммите 2019 анаунсили
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Nikolay
а как на это влияет крио?
крио медленный по сравнению с нативными кодеками
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Dmitry Zuev
На спарксаммите 2019 анаунсили
в тот момент я только первый раз увидел спарк )
источник

D

Dima Kubitskiy in Moscow Spark
Паша Финкельштейн
Да без проблем, но хоть какие-нибудь бенчмарки есть?  Я не opinionated, мне надо понять
да нет там никакой разницы, сикуль конвертится в датафреймы, они в рдд, и все это одинаково работает, хотя  у сикуля иногда может быть больше промежуточных оптимизаций
источник