Size: a a a

2020 June 01

ИК

Иван Калининский... in Moscow Spark
Внутри, например, json-чики)
источник

AS

Andrey Smirnov in Moscow Spark
Иван Калининский
Подскажите, какие настройки конфигурации надо указать в spark 2.2.0, чтобы прочитать вложенные директории в hdfs. Названия директорий не в формате партиций hive, это просто папки hdfs. Таблицы hive над этой структурой нет, метастор не содержит никакой информации.
Пример:
/docs/a-f/
/docs/g-o/
/docs/p-z/
На входе только папка /docs/
docs/**/*.json
источник

ИК

Иван Калининский... in Moscow Spark
Спасибо. Но хотелось бы полноценную рекурсию, чтобы не анализировать уровень вложенности
источник

ЕГ

Евгений Глотов... in Moscow Spark
Иван Калининский
Спасибо. Но хотелось бы полноценную рекурсию, чтобы не анализировать уровень вложенности
mapred.input.dir.recursive=true, вроде так
источник

ЕГ

Евгений Глотов... in Moscow Spark
Наверно ещё спереди нужно spark.hadoop.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хотя у меня и без этого вроде работало, только спарк ругается на неизвестный ему параметр
источник

AS

Andrey Smirnov in Moscow Spark
Иван Калининский
Спасибо. Но хотелось бы полноценную рекурсию, чтобы не анализировать уровень вложенности
а так что не работает например на 3 папках?
источник

GP

Grigory Pomadchin in Moscow Spark
Евгений Глотов
Наверно ещё спереди нужно spark.hadoop.
+
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
mapred.input.dir.recursive=true, вроде так
Спасибо, да, это самый логичный вариант, но не помогает, и если spark.hadoop добавить, тоже не помогает
источник

ЕГ

Евгений Глотов... in Moscow Spark
(
источник

ЕГ

Евгений Глотов... in Moscow Spark
У нас на один уровень вложенности прокатывало
источник

GP

Grigory Pomadchin in Moscow Spark
Иван Калининский
Спасибо, да, это самый логичный вариант, но не помогает, и если spark.hadoop добавить, тоже не помогает
через звездочку не помогает?
источник

GP

Grigory Pomadchin in Moscow Spark
включить флаг рекурсии и ./*/
источник

ИК

Иван Калининский... in Moscow Spark
Andrey Smirnov
а так что не работает например на 3 папках?
А вот, похоже действует! Благодарю!
источник

ИК

Иван Калининский... in Moscow Spark
Grigory Pomadchin
включить флаг рекурсии и ./*/
Да, походу то, что нужно! Спасибо
источник

l

lvm in Moscow Spark
Привет. Подскажите, может ли pandas_udf grouped_map вернуть объект с моделью или sklearn pipeline?
источник

R

Renarde in Moscow Spark
lvm
Привет. Подскажите, может ли pandas_udf grouped_map вернуть объект с моделью или sklearn pipeline?
нет, pandas_udf возвращают только типы которые есть в спарке
источник

R

Renarde in Moscow Spark
вы указываете в явном виде что вернется из pandas_udf в декораторе (пример):
from pyspark.sql.functions import pandas_udf, PandasUDFType

@pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP)
def subtract_mean(pdf):
   # pdf is a pandas.DataFrame
   v = pdf.v
   return pdf.assign(v=v - v.mean())
источник

R

Renarde in Moscow Spark
потому что после pandas_udf спарк ожидает что датафрейм будет как обычный спарковский DataFrame, с определяемыми типами
источник

GP

Grigory Pomadchin in Moscow Spark
источник