Телеграмм чат группы moscowspark страница 359

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 May 29

AZ

Alexey Zinoviev in Moscow Spark

Паша Финкельштейн

С моей точки зрения непонятно зачем писать на детефреймах потому что есть же SQL для которого тоже есть автодополнение хотя бы табличек внутри запроса и при этом его знают типа все и грамматика у него суперпредсказуемая и можно делать интересные штуки типа
FROM A a JOIN B b ON b.id=a.user_id JOIN C c ON a.id=c.some_id AND b.id=c.author_id.
В спарковой грамматике это не очень тривиально пишется, а на SQL это хоть дерево напишет

Ну разбивка sql на вызовы функций даёт больше ощущения, что ты программист)))

источник

11:26пожаловаться #1

ПФ

Паша Финкельштейн... in Moscow Spark

Alexey Zinoviev

Есть люди с sql дислексией

Я таким был пока не поработал с датасетами. Внезапно объектный groupBy мне вправил мозг — я понял логику всего остального SQL :)

источник

11:29пожаловаться #2

ПФ

Паша Финкельштейн... in Moscow Spark

Alexey Zinoviev

Ну разбивка sql на вызовы функций даёт больше ощущения, что ты программист)))

лайк :)

источник

11:29пожаловаться #3

D

Dima Kubitskiy in Moscow Spark

Паша Финкельштейн

С моей точки зрения непонятно зачем писать на детефреймах потому что есть же SQL для которого тоже есть автодополнение хотя бы табличек внутри запроса и при этом его знают типа все и грамматика у него суперпредсказуемая и можно делать интересные штуки типа
FROM A a JOIN B b ON b.id=a.user_id JOIN C c ON a.id=c.some_id AND b.id=c.author_id.
В спарковой грамматике это не очень тривиально пишется, а на SQL это хоть дерево напишет

сикуль -> ошибки в рантайме отлавливаешь (может быть),
датасет -> ошибки выводит при компиляции
вполне себе аргумент)

источник

11:29пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

сикуль -> ошибки в рантайме отлавливаешь (может быть),
датасет -> ошибки выводит при компиляции
вполне себе аргумент)

Я писал про датафреймы. Про датасеты мне как раз всё понятно

источник

11:30пожаловаться #5

N

Nikolay in Moscow Spark

в большинстве случаев все ошибки sql отловятся при первом вызове. так же, как и при работе с данными

источник

11:30пожаловаться #6

D

Dima Kubitskiy in Moscow Spark

датафрейм=датасет(без типов)

источник

11:31пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

датафрейм=датасет(без типов)

Главная разница как раз в том, что в нём при компиляции ничего важного не отваливается

источник

11:31пожаловаться #8

ПФ

Паша Финкельштейн... in Moscow Spark

а в датасете ты "1" - 1 никак не сделаешь

источник

11:31пожаловаться #9

N

Nikolay in Moscow Spark

это не совсем случай питона с его динамической типизацией и обилием кусков кода, в которых не отловить ошибку до их выполнения. запустил sql. и все ошибки в этом sql сразу найдутся

источник

11:32пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

давайте договоримся что я называю датасетом нормальный типизированный не Row датасет :)

источник

11:32пожаловаться #11

AZ

Alexey Zinoviev in Moscow Spark

Паша Финкельштейн

лайк :)

На самом деле в датабрикс очень сильно пытаются стать распределенным пандасом - ясно какие это плюсы для них несёт, но при этом основное кейсы пандас а-ля разведочный анализ не особо важны для того, что крутится в спарк + средний пандасовец действительно не знает sql и скорее всего не работал на языках с конпеляцией

источник

11:33пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

Alexey Zinoviev

На самом деле в датабрикс очень сильно пытаются стать распределенным пандасом - ясно какие это плюсы для них несёт, но при этом основное кейсы пандас а-ля разведочный анализ не особо важны для того, что крутится в спарк + средний пандасовец действительно не знает sql и скорее всего не работал на языках с конпеляцией

В целом я понимаю, но мне кажется что тут спарку конкурировать бесполезно 😞

источник

11:35пожаловаться #13

AZ

Alexey Zinoviev in Moscow Spark

Поэтому все туториалы, оптимизации, API льются в датафреймы (но это ни разу не значит, что это единственный верный путь) и как следствие народ рожает свой прод копипастой именно с датафреймов

источник

11:35пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Потому что питон правда для такого очень удобен

источник

11:35пожаловаться #15

AZ

Alexey Zinoviev in Moscow Spark

Он не конкурирует, он хочет дополнить

источник

11:35пожаловаться #16

AZ

Alexey Zinoviev in Moscow Spark

Типо пишешь на pandas и в какой то момент просто выполняешься распределенно, не меняя кодовые практики

источник

11:36пожаловаться #17

AZ

Alexey Zinoviev in Moscow Spark

Но это не значит, что мы на статических языках должны себя ограничивать

источник

11:37пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Alexey Zinoviev

Типо пишешь на pandas и в какой то момент просто выполняешься распределенно, не меняя кодовые практики

Мне казалось что для этого есть Dask?

источник

11:37пожаловаться #19

AZ

Alexey Zinoviev in Moscow Spark

Паша Финкельштейн

Мне казалось что для этого есть Dask?

А есть батин кластер на спарке и заказчик, хотящий трениться на parquet/orc

источник

11:38пожаловаться #20