Телеграмм чат группы moscowspark страница 594

https://databricks.com/session/accelerating-tensorflow-with-apache-arrow-on-spark-bonus-making-it-available-in-scala
презентация Холден, она показывает что данные хранятся в airflow формате, и их уже используют как из java так и из питона. Приблизительно 14 минута

Databricks

Accelerating Tensorflow with Apache Arrow on Spark + bonus making it available* in Scala - Databricks

This video will look at how to use Apache Arrow to accelerate data copy from Spark to Tensorflow, and how to expose basic functionality in Scala.

источник

13:29пожаловаться #5

NN

No Name in Moscow Spark

Andrey Smirnov

https://databricks.com/session/accelerating-tensorflow-with-apache-arrow-on-spark-bonus-making-it-available-in-scala
презентация Холден, она показывает что данные хранятся в airflow формате, и их уже используют как из java так и из питона. Приблизительно 14 минута

Databricks

Accelerating Tensorflow with Apache Arrow on Spark + bonus making it available* in Scala - Databricks

This video will look at how to use Apache Arrow to accelerate data copy from Spark to Tensorflow, and how to expose basic functionality in Scala.

Всм в arrow формате?

источник

13:30пожаловаться #6

AS

Andrey Smirnov in Moscow Spark

но я много с этим не работал (всегда была скала и только когда надо было сервить модель питона приходилось к этому обращаться)

источник

13:31пожаловаться #7

ЛР

Лев Рагулин... in Moscow Spark

@pklemenkov А когда ближайший Moscow spark ?

источник

13:34пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Паша Финкельштейн

Ну у тебя есть данные в джавовой памяти, так? Теперь тебе надо как-то их превратить в питонячьи/сишные данные. Правильно?

В идеале, спарк чтение данных и все вычисления будет прокидывать в arrow, тогда джава для с++ будет такой же обёрткой, как питон для джавы, а все вычисления на плюсах)

источник

17:48пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Но что-то мне подсказывает, что сейчас там всё немного не так оптимально)

источник

17:48пожаловаться #10

2021 March 12

Y

Y in Moscow Spark

Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7

источник

15:24пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Y

Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7

Установить на сервер питон 2.7😆

источник

15:30пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Базовый питон для разворачивания пайспарк воркера на всех нодах кластера должен быть одинаковый и лежать по одному и тому же пути. Пайспарк виртуалэнву для развёртывания тоже нужен базовый питон правильной версии

источник

15:32пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Y

Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7

Если нет прав установить питон по-нормальному, есть относительно лёгкий варик обхода - пишем UDF, в котором закидываем папку с питоном из хдфс например на ноду, где работает спарк воркер, в папку /tmp/py37, а дальше перезапускаем спарк с этим путём к питону

источник

15:34пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Однако, udf может работать не на всех нодах, так что надо несколько раз запускать, и всё равно куда-то может не попасть

источник

15:35пожаловаться #15

A

Antony in Moscow Spark

Y

Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7

--archives в архив запаковать conda env

источник

15:36пожаловаться #16

Y

Y in Moscow Spark

Antony

--archives в архив запаковать conda env

Спасибо, слышал об этом, погуглю пример, или может дадите ссылку хорошую

источник

15:37пожаловаться #17

A

Antony in Moscow Spark

Y

Спасибо, слышал об этом, погуглю пример, или может дадите ссылку хорошую

по ссылкам не подскажу
скажу только что вот этот способ как надо работает

источник

15:49пожаловаться #18

Y

Y in Moscow Spark

Antony

по ссылкам не подскажу
скажу только что вот этот способ как надо работает

А у вас spark 3.1 и выше? Просто в документации указана эта версия, а у нас 2.4 стоит

источник

16:05пожаловаться #19

ДД

Джон Дориан... in Moscow Spark

Y

Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7

В сторону контейнеризации не смотрели? Докер должен решать подобные проблемы

источник

16:12пожаловаться #20