Телеграмм чат группы moscowspark страница 358

главное имплиситов поменьше

16:46пожаловаться #1

ПФ

Mi

главное имплиситов поменьше

там нету имплиситов, поэтому их ровно 0 :)

16:46пожаловаться #2

2020 May 29

ПФ

@pomadchin я благодаря @ivrudnev имею теперь идеальный репродьюсер на скале

spark.conf.set("spark.sql.codegen.wholeStage", false)

Seq(1.asInstanceOf[Integer], null.asInstanceOf[Integer], 3.asInstanceOf[Integer]).toDS().map(v=>(v,v)).show()

10:51пожаловаться #3

ПФ

Andrey Smirnov

интересно, а как часто используются Dataset, по моей практике, если наберется 5%, то уже хорошо, rdd чаще используется

Как только я понял, что я не могу нормально напистаь джойн на сырых датафреймах — я начал использовать датасеты.
И чтобы избежать моей ошибки при работе с джойнами в Kotlin API уже учтена наллабилити — что при leftJoin справа может быть null

10:56пожаловаться #4

AS

Andrey Smirnov in Moscow Spark

Паша Финкельштейн

Как только я понял, что я не могу нормально напистаь джойн на сырых датафреймах — я начал использовать датасеты.
И чтобы избежать моей ошибки при работе с джойнами в Kotlin API уже учтена наллабилити — что при leftJoin справа может быть null

а что значит нормально, когда делаем join на датасетах мы получаем два тупла, когда делаем на датафреймах, это объединение информации, как в sql

10:57пожаловаться #5

ПФ

Andrey Smirnov

а что значит нормально, когда делаем join на датасетах мы получаем два тупла, когда делаем на датафреймах, это объединение информации, как в sql

На датасетах мы получаем тупл (когда используем joinWith), а вот на датафреймах мы получаем датафрейм )
И вот у тебя три подряд джойна и внутри никакого автодополнения, непонятно как обращаться к полям вообще, приходится экспериментально подбирать магические строки если какие-то датафреймы были неименованными… В общем много боли, которую я не смог превзойти.

11:00пожаловаться #6

AZ

Alexey Zinoviev in Moscow Spark

Паша Финкельштейн

На датасетах мы получаем тупл (когда используем joinWith), а вот на датафреймах мы получаем датафрейм )
И вот у тебя три подряд джойна и внутри никакого автодополнения, непонятно как обращаться к полям вообще, приходится экспериментально подбирать магические строки если какие-то датафреймы были неименованными… В общем много боли, которую я не смог превзойти.

Тут основной вопрос насколько работа с данными в Spark декларативное и насколько императивное программирование. Грубо говоря все, что ты пишешь это боль, но правда и то, что люди научились её не замечать годами, работая на sql и падая в рантайм

11:05пожаловаться #7

ПФ

Alexey Zinoviev

Тут основной вопрос насколько работа с данными в Spark декларативное и насколько императивное программирование. Грубо говоря все, что ты пишешь это боль, но правда и то, что люди научились её не замечать годами, работая на sql и падая в рантайм

С моей точки зрения непонятно зачем писать на детефреймах потому что есть же SQL для которого тоже есть автодополнение хотя бы табличек внутри запроса и при этом его знают типа все и грамматика у него суперпредсказуемая и можно делать интересные штуки типа
FROM A a JOIN B b ON b.id=a.user_id JOIN C c ON a.id=c.some_id AND b.id=c.author_id.
В спарковой грамматике это не очень тривиально пишется, а на SQL это хоть дерево напишет

11:19пожаловаться #8

M

ну иногда вопрос в том что предпочтительнее - удобство написания без магии или чтобы оно быстро работало

11:19пожаловаться #9

ПФ

Причём SQL ещё и читается проще

11:19пожаловаться #10

ПФ

Mi

ну иногда вопрос в том что предпочтительнее - удобство написания без магии или чтобы оно быстро работало

Кстати, а есть какие-то бенчмарки, которые показывают что датасеты быстрее? Я такое слышал, но сам построить бенчмарк не могу потому что не понимаю как

11:20пожаловаться #11

M

не думаю что бенчмарки будут в пользу датасетов

11:21пожаловаться #12

M

хотя если под тангстеном