Size: a a a

2019 February 12

S

Stanislav in Moscow Spark
Alexander Piminov
Схема всех ORC в каталоге одинаковая?
Хм, как бы проверить
источник

R

Rogoley in Moscow Spark
Sergey Karpov
spark для show просчитывает только 20 строк, а для count все, а какой-то ячейке битое значение
вы уверены, что orc при count пересчитывает каждую ячейку, а не берет данные из хедеров файлов?
источник

НК

Николай Корсаков... in Moscow Spark
Sergey Karpov
spark для show просчитывает только 20 строк, а для count все, а какой-то ячейке битое значение
В моем случае именно так и бывает. Или в функцию приезжает значение, которое оно не в состоянии обработать. Посмотри, на какое поле ругается
источник

НК

Николай Корсаков... in Moscow Spark
Но обычно - битое значение в колонке.
источник

S

Stanislav in Moscow Spark
Николай Корсаков
В моем случае именно так и бывает. Или в функцию приезжает значение, которое оно не в состоянии обработать. Посмотри, на какое поле ругается
Без поля. Грузит партицию и молча падает. Партиций на первый взгляд нормальная
источник

НК

Николай Корсаков... in Moscow Spark
А ты все поля из орка забираешь?
источник

S

Stanislav in Moscow Spark
Николай Корсаков
А ты все поля из орка забираешь?
Да
источник

НК

Николай Корсаков... in Moscow Spark
Попробуй сделать каунт для какого-то конкретного поля.
источник

S

Stanislav in Moscow Spark
Похоже какая то проблема поля. Без ограничений общее число получаю по полю. Но как только начинаю отбор, появляется нпе. Даже после приведения поля к одному типу
источник

НК

Николай Корсаков... in Moscow Spark
Если конкретное поле на котором валится нашел, конвертни в стринг и зауникаль символы из него. Обычно что-то всплывает
источник

S

Stanislav in Moscow Spark
Николай Корсаков
Если конкретное поле на котором валится нашел, конвертни в стринг и зауникаль символы из него. Обычно что-то всплывает
Спасибо, попробую
источник

S

Stanislav in Moscow Spark
Хайв на этих же данных как экстернал тейбл работает корректно. Только спарк чудит (
источник

AS

Andrey Smirnov in Moscow Spark
Stanislav
Хайв на этих же данных как экстернал тейбл работает корректно. Только спарк чудит (
может дело в версиях orc?
источник

S

Stanislav in Moscow Spark
Andrey Smirnov
может дело в версиях orc?
Посмотрел, у меня свежие орс сменили схему. Всё равно правда не понимаю, почему все сыпется при касте
источник

S

Stanislav in Moscow Spark
Andrey Smirnov
может дело в версиях orc?
Ты прав. Даже не так. Часть орс была закинута спарком, часть хайвом. Хайвовая часть сломала спарк
источник

AS

Andrey Smirnov in Moscow Spark
Stanislav
Ты прав. Даже не так. Часть орс была закинута спарком, часть хайвом. Хайвовая часть сломала спарк
да, сам раз на такое натолкнулся, поэтому и запомнид
источник

S

Stanislav in Moscow Spark
Andrey Smirnov
да, сам раз на такое натолкнулся, поэтому и запомнид
Спасибо)
источник

ДК

Дмитрий Курганский... in Moscow Spark
Всем доброго вечера! Если есть у кого-нибудь опыт тюнинга sqoop версии "cloudera connecter для teradata", то буду благодарен если смодетк пояснить, чем отличается export с batch mode от export с fastload? Нашел про это 2 абзаца и пока суть не очень дошла...
источник
2019 February 13

AA

Anton Alekseev in Moscow Spark
Подскажите, не нагуглю, в чем проблема обращение к колонке через selectExpr, если колонка цифра as string (pyspark). Без переименования колонки в другую строку (типа "0" -> "User") выдает колонку "0" заполненную 0, для "User" все нормально, выдает значения из колонки. Поделитесь ссылкой, если сталкивались. Пример
df_old.selectExpr('0')
vs
df_old.withColumnRenamed('0', 'User').selectExpr('User')
источник

AA

Anton Alekseev in Moscow Spark
Так естественно все работает
df_old.select('0')
источник