Size: a a a

2020 January 15

N

Nikolay in Moscow Spark
Вы посмотрите со стороны ханы . Какой туда запрос прилетает http://sap.optimieren.de/hana/hana/html/_m__p_r_e_p_a_r_e_d__s_t_a_t_e_m_e_n_t_s.html
источник

IK

Ilya Kozyrev in Moscow Spark
Всем привет, кто нибудь знает способ из спарка писать/читать Aurora (Serverless) ? Или нужно писать свой DataSource который будет ломиться в аврору через Amazon data api?
источник

T

T in Moscow Spark
Ilya Kozyrev
Всем привет, кто нибудь знает способ из спарка писать/читать Aurora (Serverless) ? Или нужно писать свой DataSource который будет ломиться в аврору через Amazon data api?
Там же драйвер совместим с mysql так что через jdbc должно работать
источник

IK

Ilya Kozyrev in Moscow Spark
Там нет публичного ip в serverless ) Есть только endpoint с которым можно работать. Есть Amazon SDK для java который умеет с ним работать через секреты амазона по http, интересно насколько безумная идея писать свой data source
источник

T

T in Moscow Spark
Ilya Kozyrev
Там нет публичного ip в serverless ) Есть только endpoint с которым можно работать. Есть Amazon SDK для java который умеет с ним работать через секреты амазона по http, интересно насколько безумная идея писать свой data source
Если spark в aws то можно в один vpc завернуть https://aws.amazon.com/getting-started/tutorials/configure-connect-serverless-mysql-database-aurora/
источник

IK

Ilya Kozyrev in Moscow Spark
и как по jdbc подключиться? endpoint передать как ip сервера? Звучит как магия =)
источник

T

T in Moscow Spark
точно также как они в 5 пункте mysql клинетом цепляются
источник

IK

Ilya Kozyrev in Moscow Spark
T
точно также как они в 5 пункте mysql клинетом цепляются
Спасибо, кажется, это действительно работает. Достаточно настроить нужные security groups!
источник

T

T in Moscow Spark
👍
источник
2020 January 17

PK

Pavel Klemenkov in Moscow Spark
Всем привет. Прервем неловкое постновогоднее молчание. Читая рассылку Спарка, наткнулся на такой любопытный проект https://github.com/dmmiller612/sparktorch. В чем фишка? Чувак, как и тысячи других энтузиастов, прикрутил очередной DL-framework к Спарку. Все, в общем, обычно. Data parallel learning, parameter server (написан, правда, руками и на Flask). Однако разработчик заморочился и сделал нормальую поддержку Spark ML Pipeline. Т.е. реализовал полноценный кастомный трансформер и кастомный эстиматор. Печально, конечно, что не используется конвертация партиций через arrow (должно быть сильно быстрее). Зато есть поддержка синхронного обучения через barrier execution mode в Spark. В общем, крайне любопытный проект.
источник

ЛР

Лев Рагулин... in Moscow Spark
Интересно, почитаем
источник

ЛР

Лев Рагулин... in Moscow Spark
Реализация на питоняше
источник

ЛР

Лев Рагулин... in Moscow Spark
И заточена под pytorch
источник

ЛР

Лев Рагулин... in Moscow Spark
2 месяца/ 45 комитетов - сыровато наверное ...
источник

PK

Pavel Klemenkov in Moscow Spark
Да, сырое канеш. Но чего-то такого прям долгого и стабильного я и не видел, если честно
источник

PK

Pavel Klemenkov in Moscow Spark
С другой стороны, это же просто интеграция двух больших проектов. Оно и не должно быть большим и долгим
источник
2020 January 22

SO

Simon Osipov in Moscow Spark
Привет, вопрос:
Если я выдаю экзекьютору 3 гб и еще немного отсыпаю на overhead.
Затем кеширую какой-то нибудь df.

Cоответственно, на каждом экзекьюторе кешируется только та часть df, которая на нем есть, или на каждый экзекьютор приедет весь df, чтобы в памяти каждого экзекьютора был весь df?
Или я сильно запутался и ошибся?
источник

DZ

Dmitry Zuev in Moscow Spark
на экзекуторах только те партиции которые там были закэшеруются
источник

SO

Simon Osipov in Moscow Spark
Ага, спасибо!
источник

SA

Sergey Akopyan in Moscow Spark
Всем привет. Кто нибудь дружил spark со spring boot'ом ?
источник