Телеграмм чат группы moscowspark страница 367

Внутри, например, json-чики)

16:39пожаловаться #1

Andrey Smirnov in Moscow Spark

Подскажите, какие настройки конфигурации надо указать в spark 2.2.0, чтобы прочитать вложенные директории в hdfs. Названия директорий не в формате партиций hive, это просто папки hdfs. Таблицы hive над этой структурой нет, метастор не содержит никакой информации.
Пример:
/docs/a-f/
/docs/g-o/
/docs/p-z/
На входе только папка /docs/

docs/**/*.json

16:44пожаловаться #2

ИК

Спасибо. Но хотелось бы полноценную рекурсию, чтобы не анализировать уровень вложенности

16:47пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Спасибо. Но хотелось бы полноценную рекурсию, чтобы не анализировать уровень вложенности

mapred.input.dir.recursive=true, вроде так

16:49пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Наверно ещё спереди нужно spark.hadoop.

16:50пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Хотя у меня и без этого вроде работало, только спарк ругается на неизвестный ему параметр

16:50пожаловаться #6

Andrey Smirnov in Moscow Spark

Спасибо. Но хотелось бы полноценную рекурсию, чтобы не анализировать уровень вложенности

а так что не работает например на 3 папках?

16:53пожаловаться #7

Евгений Глотов

Наверно ещё спереди нужно spark.hadoop.

17:02пожаловаться #8

ИК

Евгений Глотов

mapred.input.dir.recursive=true, вроде так

Спасибо, да, это самый логичный вариант, но не помогает, и если spark.hadoop добавить, тоже не помогает

17:02пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

(

17:02пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

У нас на один уровень вложенности прокатывало

17:03пожаловаться #11

Спасибо, да, это самый логичный вариант, но не помогает, и если spark.hadoop добавить, тоже не помогает

через звездочку не помогает?

17:03пожаловаться #12

включить флаг рекурсии и ./*/

17:03пожаловаться #13

ИК

Andrey Smirnov

а так что не работает например на 3 папках?

А вот, похоже действует! Благодарю!

17:04пожаловаться #14

ИК

Grigory Pomadchin

включить флаг рекурсии и ./*/

Да, походу то, что нужно! Спасибо

17:04пожаловаться #15

lvm in Moscow Spark

Привет. Подскажите, может ли pandas_udf grouped_map вернуть объект с моделью или sklearn pipeline?

19:30пожаловаться #16

Renarde in Moscow Spark

lvm

Привет. Подскажите, может ли pandas_udf grouped_map вернуть объект с моделью или sklearn pipeline?

нет, pandas_udf возвращают только типы которые есть в спарке

21:48пожаловаться #17

Renarde in Moscow Spark

вы указываете в явном виде что вернется из pandas_udf в декораторе (пример):

from pyspark.sql.functions import pandas_udf, PandasUDFType

@pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP)
def subtract_mean(pdf):
    # pdf is a pandas.DataFrame
    v = pdf.v
    return pdf.assign(v=v - v.mean())

21:50пожаловаться #18

Renarde in Moscow Spark

потому что после pandas_udf спарк ожидает что датафрейм будет как обычный спарковский DataFrame, с определяемыми типами

21:51пожаловаться #19

sticker.webp

(44.99 Кб)