Если вот тут val ds = Seq(1.asInstanceOf[Integer], null.asInstanceOf[Integer]).toDS() , то тут нет энкодера для кейс класса. тут есть энкодер implicit def newBoxedIntEncoder: Encoder[java.lang.Integer] = Encoders.INT
Если вот тут val ds = Seq(1.asInstanceOf[Integer], null.asInstanceOf[Integer]).toDS() , то тут нет энкодера для кейс класса. тут есть энкодер implicit def newBoxedIntEncoder: Encoder[java.lang.Integer] = Encoders.INT
а для просто классов нет пути "стандартного" . Вот попробуй скомпилить import spark.implicits._ class Pair(val a:Int,val b:Int) spark.sqlContext.createDataset(Seq(new Pair(1,1))).show()
мы наверное про разные сгерерированные кода похоже говорим. ты наверное хочешь увидеть код сериалиазции и десиреализации в WSCG. попробуй включить DEBUG с выключенным WSCG
Подскажите, какие настройки конфигурации надо указать в spark 2.2.0, чтобы прочитать вложенные директории в hdfs. Названия директорий не в формате партиций hive, это просто папки hdfs. Таблицы hive над этой структурой нет, метастор не содержит никакой информации. Пример: /docs/a-f/ /docs/g-o/ /docs/p-z/ На входе только папка /docs/