Телеграмм чат группы moscowspark страница 366

Если вот тут val ds = Seq(1.asInstanceOf[Integer], null.asInstanceOf[Integer]).toDS() , то тут нет энкодера для кейс класса. тут есть энкодер implicit def newBoxedIntEncoder: Encoder[java.lang.Integer] = Encoders.INT

источник

11:15пожаловаться #3

ПФ

Паша Финкельштейн... in Moscow Spark

Nikolay

Правильно, но это вполне стандартный путь

источник

11:15пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

Ты читаешь откуда-то стрим значений и потом, например, группируешь

источник

11:16пожаловаться #5

Nikolay in Moscow Spark

они все стандартые. есть просто разные пути . один для кейс классов, а другой для других типов.

источник

11:16пожаловаться #6

Nikolay in Moscow Spark

а для просто классов нет пути "стандартного" . Вот попробуй скомпилить import spark.implicits._
class Pair(val a:Int,val b:Int)
spark.sqlContext.createDataset(Seq(new Pair(1,1))).show()

источник

11:18пожаловаться #7

Nikolay in Moscow Spark

Под стандартным я понимаю путь, который появляется после добавления уже готовых имплиситов из SQLImplicits

источник

11:20пожаловаться #8

Nikolay in Moscow Spark

Интересно, что spark.sql.codegen.wholeStage не влияет на генерацию кода для декодеров. Он действует только для WSCG

источник

11:30пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

Nikolay

они все стандартые. есть просто разные пути . один для кейс классов, а другой для других типов.

Сорри, я триггернулся на "Стандартными" энкодерами в этот кусок кода не попасть потому что Encoders.INT вполне себе стандартный

источник

11:33пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

Nikolay

Интересно, что spark.sql.codegen.wholeStage не влияет на генерацию кода для декодеров. Он действует только для WSCG

тут ты имеешь в виду десериалайзеров?

источник

11:34пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

А то энкодер — это пара сериалайзер-десериалайзер вроде бы

источник

11:34пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

Кстати, фикс этой баги сейчас на все спарки раскатают, начиная с 2.0.x вроде бы

источник

11:35пожаловаться #13

Nikolay in Moscow Spark

Паша Финкельштейн

тут ты имеешь в виду десериалайзеров?

и сериализацию тоже. он же генерит код для того, чтобы сериализоват значение типа T. генерит всегда не взирая на значения этог параметра.

источник

11:35пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Nikolay

Как-то влияет и я в печали что нельзя посмотреть сгенерированный код при выключенном wholestage'е

источник

11:36пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

(или я не нашёл как)

источник

11:39пожаловаться #16

Nikolay in Moscow Spark

мы наверное про разные сгерерированные кода похоже говорим. ты наверное хочешь увидеть код сериалиазции и десиреализации в WSCG. попробуй включить DEBUG с выключенным WSCG

источник

11:44пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

О, блин, хорошая идея

источник

11:50пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Теперь уже поздно, а если бы сообразил сам пока разбирался — может сам бы и причину баги нашёл

источник

11:51пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

Подскажите, какие настройки конфигурации надо указать в spark 2.2.0, чтобы прочитать вложенные директории в hdfs. Названия директорий не в формате партиций hive, это просто папки hdfs. Таблицы hive над этой структурой нет, метастор не содержит никакой информации.
Пример:
/docs/a-f/
/docs/g-o/
/docs/p-z/
На входе только папка /docs/

источник

16:38пожаловаться #20