Size: a a a

2021 May 04

IS

Ilya Slesarev in Moscow Spark
Звучит как фильтрация над csv?
Т.е. он накинет предикат уже после чтения csv
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ааа, ну слава богу
источник

NN

No Name in Moscow Spark
Мне кажется, что со строковыми форматами невозможно в принципе без предварительной конвертации в колумнарный.)
источник

t

tenKe in Moscow Spark
вероятно ничего, просто у них общая читалка всех файл форматов, поэтому PredicatePushdown есть, а по факту он не делается
источник

GP

Grigory Pomadchin in Moscow Spark
вот бы csv стримом читали и фильтровали на ходу
источник

GP

Grigory Pomadchin in Moscow Spark
источник

t

tenKe in Moscow Spark
package org.apache.spark.sql.execution.datasources.csv
...
class CSVFileFormat extends TextBasedFileFormat with DataSourceRegister {
...
override def buildReader(
   sparkSession: SparkSession,
   dataSchema: StructType,
   partitionSchema: StructType,
   requiredSchema: StructType,
   filters: Seq[Filter],
   options: Map[String, String],
   hadoopConf: Configuration): (PartitionedFile) => Iterator[InternalRow]


Вот эта функция генерит читалку для CSV. Если посмотреть исходники, то переменная filters там никак не используется
источник

t

tenKe in Moscow Spark
А вот, например,  в читалке паркетов используется
источник

IS

Ilya Slesarev in Moscow Spark
Какой-то выстрел в ногу
источник

GP

Grigory Pomadchin in Moscow Spark
+
источник

IS

Ilya Slesarev in Moscow Spark
Если не подумать, то ты ожидаешь фильтра, указываешь его, и садишься в лужу
источник

GP

Grigory Pomadchin in Moscow Spark
в колено
источник

t

tenKe in Moscow Spark
не, сам фильтр то отработает
источник

t

tenKe in Moscow Spark
просто он будет работать как физический оператор Filter через кодогенерацию
источник

IS

Ilya Slesarev in Moscow Spark
А, тогда все окей
источник

t

tenKe in Moscow Spark
а не как PredicatePushdown)
источник

IS

Ilya Slesarev in Moscow Spark
Тогда это более, чем ожидаемое поведение
источник

PK

Pavel Klemenkov in Moscow Spark
Господи, надо посмотреть есть ли на этот счёт бага в джире. А то люди ведь смотрят в план, видят пушдаун, а про формат могут и не подумать
источник

GP

Grigory Pomadchin in Moscow Spark
не вижу бага вижу фичу
источник

GP

Grigory Pomadchin in Moscow Spark
источник