Size: a a a

2018 December 23

AA

Anton Alekseev in Moscow Spark
После прочтения завелось как положено
источник

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
Нет, если ты его записал на диск, то count уже не нужен
В любом случае починилось, спасибо большое!!!
источник

AS

Andrey Smirnov in Moscow Spark
Anton Alekseev
После прочтения завелось как положено
Так я это имел ввиду, записал   а потом это прочитал :)
источник

AA

Anton Alekseev in Moscow Spark
Andrey Smirnov
Так я это имел ввиду, записал   а потом это прочитал :)
А вообще как вы определяете когда запустить процесс сохранения-чтения на датафрейме, сами глазами поглядываете где проседает перформанс? Из статьи не совсем понял. Я вообще практику count взял из статьи databricks, не ожидал что они такой нюанс не покроют. https://databricks.com/blog/2016/10/18/7-tips-to-debug-apache-spark-code-faster-with-databricks.html
источник

AS

Andrey Smirnov in Moscow Spark
Я глазами (но не факт что это бест практис) , если что-то выполняется долго, смотрю граф выполнения, насколько он соответствует моему представлению о прекрасном :)
Чаще всего это итерактивный процесс в zeppelin
источник
2018 December 24

PK

Pavel Klemenkov in Moscow Spark
Всем привет! У нас появился свой канал на YouTube https://www.youtube.com/channel/UCb5cNv__wJLSbbc1k7iXXeQ. Подписывайтесь, чтобы быть в курсе записей с митапов, туда же буду постепенно накидывать клевые, на мой вкус, видео про Spark. Запись Moscow Spark #6 уже там, ссылка на презентации в описании.
источник

AI

Andrei Iatsuk in Moscow Spark
Ура
источник

PM

Pavel Mezentsev in Moscow Spark
👍
источник

PK

Pavel Klemenkov in Moscow Spark
Видео с предыдущих митапов тоже буду туда потихоньку заливать.
источник
2018 December 27

AA

Anton Alekseev in Moscow Spark
Добрый день. Никто не заморачивался вопросом нормальной реализации melt (параллельного) над датафреймом? Топовое решение что для pyspak, что для scala довольно медленное на этапе формирования _vars_and_vals. https://stackoverflow.com/questions/41670103/how-to-melt-spark-dataframe
источник

AA

Anton Alekseev in Moscow Spark
Просто распараллелить не проблема, а вот реализация еще и с учетом задействования всех cpu кластера было бы интересно посмотреть.
источник
2019 January 06

E

Egor in Moscow Spark
Всем привет, а с snowflake никто не работал?
источник

E

Egor in Moscow Spark
источник
2019 January 07

D

Dima in Moscow Spark
Я бы не советовал , зачем тебе лишнее соединение(я)
источник

VE

Vladimir E. in Moscow Spark
Всем привет, не подскажете где можно найти полный список поддерживаемых датасорс форматов  у dataframe?
Нашёл список у датабрикса, но насколько я понимаю, тут некоторые коннекторы только у них в экосистеме есть, правильно?
https://docs.databricks.com/spark/latest/data-sources/cassandra.html
источник
2019 January 09

AI

Andrei Iatsuk in Moscow Spark
Vladimir E.
Всем привет, не подскажете где можно найти полный список поддерживаемых датасорс форматов  у dataframe?
Нашёл список у датабрикса, но насколько я понимаю, тут некоторые коннекторы только у них в экосистеме есть, правильно?
https://docs.databricks.com/spark/latest/data-sources/cassandra.html
Помимо встроенных в сам спарк, есть ещё кастомные: https://spark-packages.org
источник
2019 January 14

N

Nikolay in Moscow Spark
Подскажите. Если читаю csv файл через и использую inferSchema
. То на основании каких строк выводятся типы ? Первой строки или первой ненулевой . Или все строк в файле?
источник

NU

Nikita U in Moscow Spark
Nikolay
Подскажите. Если читаю csv файл через и использую inferSchema
. То на основании каких строк выводятся типы ? Первой строки или первой ненулевой . Или все строк в файле?
inferSchema – infers the input schema automatically from data. It requires one extra pass over the data. If None is set, it uses the default value, false.
я так понимаю, всех строк
источник

N

Nikolay in Moscow Spark
Спасибо.
источник

N

Nikolay in Moscow Spark
источник