Size: a a a

2020 January 28

AZ

Alexey Zinoviev in Moscow Spark
Евгений, мы с вами на одной страничке
источник
2020 January 29

AK

Alena Korogodova in Moscow Spark
Ну это бан
источник

AS

Andrey Smirnov in Moscow Spark
Alexey Zinoviev
Согласен, бустинги на деревьях и в целом недоразвитые ансамбли, проблема многих библиотек, а на типизированном языке их делать-вообще мучение
xgboost и компании написаны на С++, достаточно типизированный язык
источник

IK

Ilya Kozyrev in Moscow Spark
Всем привет. Был ли у кого опыт запуска спарка в docker контейнерах в EMR? хочется запустить кластер в режиме step execution и засабмитить прилоежение в контейнере. Исходя из документации это возможно, если завернуть все окружение и зависимости в докер и указать
--conf spark.executorEnv.YARN_CONTAINER_RUNTIME_TYPE=docker
. Но jar/py для  spark-submit все равно должен быть на s3 или на мастере. Возникает вопрос можно ли в контейнер поместить целиком все приложение?
источник

r

rubonz in Moscow Spark
Всем привет
может у кого есть боевой опыт работы co https://www.snowflake.com/?
источник
2020 January 30

РП

Роман Пашкевич... in Moscow Spark
Коллеги,  тупой вопрос возможно)

Есть таблица заголовков (300млн) и таблица позиций (2+ млрд строк).  

При джойне этих таблиц по ключу и потом отборе по дате. (where ddate >= ''). Если запихать это в SQLContext Spark'a. То он сначала все поджойнит и потом выберет по дате. Или сначала таки заголовки по дате отберет, и потом джойн?
источник

RI

Rudnev Il’ya in Moscow Spark
Роман Пашкевич
Коллеги,  тупой вопрос возможно)

Есть таблица заголовков (300млн) и таблица позиций (2+ млрд строк).  

При джойне этих таблиц по ключу и потом отборе по дате. (where ddate >= ''). Если запихать это в SQLContext Spark'a. То он сначала все поджойнит и потом выберет по дате. Или сначала таки заголовки по дате отберет, и потом джойн?
Самый верный вариант посмотреть план запроса df.explain()
источник

PK

Pavel Klemenkov in Moscow Spark
Роман Пашкевич
Коллеги,  тупой вопрос возможно)

Есть таблица заголовков (300млн) и таблица позиций (2+ млрд строк).  

При джойне этих таблиц по ключу и потом отборе по дате. (where ddate >= ''). Если запихать это в SQLContext Spark'a. То он сначала все поджойнит и потом выберет по дате. Или сначала таки заголовки по дате отберет, и потом джойн?
Зависит от формата, из которого делается чтение. Если норм формат, то Каталист сделает predicate pushdown
источник

РП

Роман Пашкевич... in Moscow Spark
Pavel Klemenkov
Зависит от формата, из которого делается чтение. Если норм формат, то Каталист сделает predicate pushdown
Формат таблиц ORC, но вот партицирования нет.
источник

PK

Pavel Klemenkov in Moscow Spark
Роман Пашкевич
Формат таблиц ORC, но вот партицирования нет.
Пофиг, он же колоночный. Глянь Optimized logical plan, который в df.explain(True)
источник

РП

Роман Пашкевич... in Moscow Spark
Да, будем сегодня пробовать и план глянем. Hive вчера вечером барахлил, и при попытке такого джойна просто умирал.  Сегодня решили попробовать сделать тоже самое, но через Спарк.
источник

АП

Алексей Пахомов... in Moscow Spark
Ща внедряю
источник
2020 January 31

IK

Ilya Kozyrev in Moscow Spark
никто не знает когда там релиз spark 3.0 намечается? Вроде обещали early 2020
источник

PK

Pavel Klemenkov in Moscow Spark
Ilya Kozyrev
никто не знает когда там релиз spark 3.0 намечается? Вроде обещали early 2020
источник

E

Eugene in Moscow Spark
Ilya Kozyrev
никто не знает когда там релиз spark 3.0 намечается? Вроде обещали early 2020
Уже второй релиз версии preview готовится.
источник

E

Eugene in Moscow Spark
Preview версии один уже доступен.
источник

E

Eugene in Moscow Spark
Но их не устроили результаты.
источник

E

Eugene in Moscow Spark
Говорят, получилось так себе.
источник

E

Eugene in Moscow Spark
Есть куча проблем по совместимости с хайвом новым, например.
источник

E

Eugene in Moscow Spark
Сейчас Юм Вонг будет готовить второй. Но сроки не обозначил.))
источник