Телеграмм чат группы moscowspark страница 610

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1043 membersпожаловаться на группу

2021 March 30

АА

Артем Анистратов... in Moscow Spark

KrivdaTheTriewe

а для каких целей там спринг используется?

Первое что я увидел на эту тему:

https://m.habr.com/ru/company/jugru/blog/325070/

Из других источников видел, что спарк используют как припарку к спрингу. И используют dataframe api

Мифы о Spark, или Может ли пользоваться Spark обычный Java-разработчик

Продолжаем расшифровывать и местами облагораживать хардкорные доклады спикеров JPoint 2016. Сегодня доклад поменьше, всего час с копейками, соответственно, концентрация пользы и отжига на одну...

источник

19:05пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

Клиент на сайте вбивает поиск, а на бэкэнде быстренько с360 собирается😆

источник

19:05пожаловаться #2

ЕГ

Евгений Глотов... in Moscow Spark

Паша Финкельштейн

Ну в принципе норм, кто сказал что ETL должен быть только стенделон? Берём, строим обычное веб-приложение, только на слое работы с данными у нас спарк

☝️

источник

19:06пожаловаться #3

N

Nikita Blagodarnyy in Moscow Spark

Паша Финкельштейн

Ну в принципе норм, кто сказал что ETL должен быть только стенделон? Берём, строим обычное веб-приложение, только на слое работы с данными у нас спарк

мапим сабмиты на вызовы рест-айпи

источник

19:06пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

Nikita Blagodarnyy

мапим сабмиты на вызовы рест-айпи

Ну да, как админка тоже может работать

источник

19:08пожаловаться #5

AS

Andrey Smirnov in Moscow Spark

Nikita Blagodarnyy

мапим сабмиты на вызовы рест-айпи

мы так делаем, только без спринга, а это что-то плохое?

источник

19:08пожаловаться #6

K

KrivdaTheTriewe in Moscow Spark

Артем Анистратов

Первое что я увидел на эту тему:

https://m.habr.com/ru/company/jugru/blog/325070/

Из других источников видел, что спарк используют как припарку к спрингу. И используют dataframe api

Мифы о Spark, или Может ли пользоваться Spark обычный Java-разработчик

Продолжаем расшифровывать и местами облагораживать хардкорные доклады спикеров JPoint 2016. Сегодня доклад поменьше, всего час с копейками, соответственно, концентрация пользы и отжига на одну...

это старая статья оч

источник

19:09пожаловаться #7

K

KrivdaTheTriewe in Moscow Spark

Но мне непонятно, зачем спринг , если честно

источник

19:09пожаловаться #8

K

KrivdaTheTriewe in Moscow Spark

ну в плане, какая задача

источник

19:10пожаловаться #9

N

Nikita Blagodarnyy in Moscow Spark

KrivdaTheTriewe

ну в плане, какая задача

сделать защищенный рест-апи к сабмитам

источник

19:10пожаловаться #10

K

KrivdaTheTriewe in Moscow Spark

Nikita Blagodarnyy

сделать защищенный рест-апи к сабмитам

а причем тут спарк?

источник

19:19пожаловаться #11

N

Nikita Blagodarnyy in Moscow Spark

KrivdaTheTriewe

а причем тут спарк?

ну он сабмиты выполняет

источник

19:31пожаловаться #12

K

KrivdaTheTriewe in Moscow Spark

Nikita Blagodarnyy

ну он сабмиты выполняет

ну там спарк кода нет

источник

19:33пожаловаться #13

2021 March 31

D

Dmitry in Moscow Spark

Коллеги, привет! Подскажите, а есть ли возможность запустить pyspark джобу через spark-submit, указав путь до скрипта относительно pwd будущего ярнового контейнера? Мы пробрасываем тарник-зипник в джобу и хотим использовать файлик из этого же архива в качестве ентрипойнта

Сейчас нужно либо
1) писать скрипт-враппер, либо
2) распаковывать архив перед спарк самбитом (если сразу достать нельзя), доставать файлик оттуда и пробрасывать его как это делается обычно

источник

11:49пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Коллеги, привет! Подскажите, а есть ли возможность запустить pyspark джобу через spark-submit, указав путь до скрипта относительно pwd будущего ярнового контейнера? Мы пробрасываем тарник-зипник в джобу и хотим использовать файлик из этого же архива в качестве ентрипойнта

Сейчас нужно либо
1) писать скрипт-враппер, либо
2) распаковывать архив перед спарк самбитом (если сразу достать нельзя), доставать файлик оттуда и пробрасывать его как это делается обычно

Можно файл отправлять как base64 аргумент софтины ещё

источник

11:51пожаловаться #15

D

Datamove in Moscow Spark

Привет, спарщики!
Скажите, пож, а что сейчас :sota: для преобразования колонки датафрейма с массивом в обычные колонки? Т.е. имеется колонка features, в ней массив, а надо датафрейм с колонками на каждую фичу, необязательно именованные.
Задача со звездочкой: если там не просто массивы а спарс-векторы?
Я нашел что-то такое на скале, и могу видимо сделать и на pyspark нечто подобное, но может есть чего получше?

val numCols = df
  .withColumn("letters_size", size($"letters"))
  .agg(max($"letters_size"))
  .head()
  .getInt(0)

df
  .select(
    (0 until numCols).map(i => $"letters".getItem(i).as(s"col$i")): _*
  )
  .show()

источник

13:09пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Привет, спарщики!
Скажите, пож, а что сейчас :sota: для преобразования колонки датафрейма с массивом в обычные колонки? Т.е. имеется колонка features, в ней массив, а надо датафрейм с колонками на каждую фичу, необязательно именованные.
Задача со звездочкой: если там не просто массивы а спарс-векторы?
Я нашел что-то такое на скале, и могу видимо сделать и на pyspark нечто подобное, но может есть чего получше?

val numCols = df
  .withColumn("letters_size", size($"letters"))
  .agg(max($"letters_size"))
  .head()
  .getInt(0)

df
  .select(
    (0 until numCols).map(i => $"letters".getItem(i).as(s"col$i")): _*
  )
  .show()

Получше ничего нет, к сожалению

источник

13:12пожаловаться #17

АА

Артем Анистратов... in Moscow Spark

У меня есть такая реализация рекурсивная.

def flattenDataframe(df: DataFrame): DataFrame = {

    val fields = df.schema.fields
    val fieldNames = fields.map(x => x.name.replaceAll("\\S+\\s+\\S+", "_").replaceAll("__", "_"))


    fields.foreach(field => {
      val fieldtype = field.dataType
      val fieldName = field.name.replaceAll("\\S+\\s+\\S+", "_").replaceAll("__", "_")
      fieldtype match {
        case arrayType: ArrayType =>
          val fieldNamesExcludingArray = fieldNames.filter(_ != fieldName)
          val fieldNamesAndExplode = fieldNamesExcludingArray ++ Array(s"explode_outer($fieldName) as $fieldName")
          val explodedDf = df.selectExpr(fieldNamesAndExplode: _*)
          return flattenDataframe(explodedDf)

источник

13:14пожаловаться #18

D

Datamove in Moscow Spark

ок, спасибо!

источник

13:16пожаловаться #19

D

Datamove in Moscow Spark

тогда еще связанный вопрос. Может кто-то использовал mlflow.pyfunc.spark_udf - для инференса на спарке модели, которая определена на питон, и которой требуется пандас-датафрейм.
Что вы делаете, если у вас есть в спарке колонка features с массивом, а требуется передать в spark_udf обычный датафрейм с колонками.
1) преобразовывать features в колонки на спарке
2) отдавать колонку features как есть, делать sklearn pipeline и в ней уже преобразовывать данные для для sklearn-модели

источник

13:25пожаловаться #20