Size: a a a

2021 March 10

AS

Andrey Smirnov in Moscow Spark
https://towardsdatascience.com/a-gentle-introduction-to-apache-arrow-with-apache-spark-and-pandas-bb19ffe0ddae
есть пример
pdIris = pd.read_parquet(‘hdfs:///iris/part-00000–27c8e2d3-fcc9–47ff-8fd1–6ef0b079f30e-c000.snappy.parquet’, engine=’pyarrow’)
источник

AS

Andrey Smirnov in Moscow Spark
Ilya Slesarev
Да, это про каждую строчку, которая в обычной udf в питоне будет сериализоваться
а слово double тогда по вашей логике должно быть N-times?
источник

IS

Ilya Slesarev in Moscow Spark
Andrey Smirnov
а слово double тогда по вашей логике должно быть N-times?
Почему?
источник

AS

Andrey Smirnov in Moscow Spark
Ilya Slesarev
Почему?
а почему double, строк N, получаем N*2 раз
источник

AS

Andrey Smirnov in Moscow Spark
https://databricks.com/session/accelerating-tensorflow-with-apache-arrow-on-spark-bonus-making-it-available-in-scala
презентация Холден, она показывает что данные хранятся в airflow формате, и их уже используют как из  java так и из питона. Приблизительно 14 минута
источник

NN

No Name in Moscow Spark
Andrey Smirnov
https://databricks.com/session/accelerating-tensorflow-with-apache-arrow-on-spark-bonus-making-it-available-in-scala
презентация Холден, она показывает что данные хранятся в airflow формате, и их уже используют как из  java так и из питона. Приблизительно 14 минута
Всм в arrow формате?
источник

AS

Andrey Smirnov in Moscow Spark
но я много с этим не работал (всегда была скала и только когда надо было сервить модель питона приходилось к этому обращаться)
источник

ЛР

Лев Рагулин... in Moscow Spark
@pklemenkov  А когда ближайший Moscow spark ?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Паша Финкельштейн
Ну у тебя есть данные в джавовой памяти, так? Теперь тебе надо как-то их превратить в питонячьи/сишные данные. Правильно?
В идеале, спарк чтение данных и все вычисления будет прокидывать в arrow, тогда джава для с++ будет такой же обёрткой, как питон для джавы, а все вычисления на плюсах)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но что-то мне подсказывает, что сейчас там всё немного не так оптимально)
источник
2021 March 12

Y

Y in Moscow Spark
Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7
источник

ЕГ

Евгений Глотов... in Moscow Spark
Y
Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7
Установить на сервер питон 2.7😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Базовый питон для разворачивания пайспарк воркера на всех нодах кластера должен быть одинаковый и лежать по одному и тому же пути. Пайспарк виртуалэнву для развёртывания тоже нужен базовый питон правильной версии
источник

ЕГ

Евгений Глотов... in Moscow Spark
Y
Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7
Если нет прав установить питон по-нормальному, есть относительно лёгкий варик обхода - пишем UDF, в котором закидываем папку с питоном из хдфс например на ноду, где работает спарк воркер, в папку /tmp/py37, а дальше перезапускаем спарк с этим путём к питону
источник

ЕГ

Евгений Глотов... in Moscow Spark
Однако, udf может работать не на всех нодах, так что надо несколько раз запускать, и всё равно куда-то может не попасть
источник

A

Antony in Moscow Spark
Y
Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7
--archives в архив запаковать conda env
источник

Y

Y in Moscow Spark
Antony
--archives в архив запаковать conda env
Спасибо, слышал об этом, погуглю пример, или может дадите ссылку хорошую
источник

A

Antony in Moscow Spark
Y
Спасибо, слышал об этом, погуглю пример, или может дадите ссылку хорошую
по ссылкам не подскажу
скажу только что вот этот способ как надо работает
источник

Y

Y in Moscow Spark
Antony
по ссылкам не подскажу
скажу только что вот этот способ как надо работает
А у вас spark 3.1 и выше? Просто в документации указана эта версия, а у нас 2.4 стоит
источник

ДД

Джон Дориан... in Moscow Spark
Y
Всем привет! Подскажите, пожалуйста, как обойти такой момент, на кластере стоит python2.7, а на нашем сервере 3.7, и когда мы пытаем использовать udf, получаем ошибку "Python in worker has differentversion 2.7 than that in driver 3.7. PySpark cannot run with defferent minor versions."
Есть ли способ как-то работать, не устанавливая на всех узлах версию 3.7
В сторону контейнеризации не смотрели? Докер должен решать подобные проблемы
источник