Телеграмм чат группы moscowspark страница 666

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1078 membersпожаловаться на группу

2021 May 04

IS

Ilya Slesarev in Moscow Spark

Звучит как фильтрация над csv?
Т.е. он накинет предикат уже после чтения csv

источник

17:05пожаловаться #1

ПФ

Паша Финкельштейн... in Moscow Spark

Ааа, ну слава богу

источник

17:07пожаловаться #2

NN

No Name in Moscow Spark

Мне кажется, что со строковыми форматами невозможно в принципе без предварительной конвертации в колумнарный.)

источник

17:15пожаловаться #3

t

tenKe in Moscow Spark

вероятно ничего, просто у них общая читалка всех файл форматов, поэтому PredicatePushdown есть, а по факту он не делается

источник

17:16пожаловаться #4

GP

Grigory Pomadchin in Moscow Spark

вот бы csv стримом читали и фильтровали на ходу

источник

17:22пожаловаться #5

GP

Grigory Pomadchin in Moscow Spark

источник

17:22пожаловаться #6

t

tenKe in Moscow Spark

package org.apache.spark.sql.execution.datasources.csv
...
class CSVFileFormat extends TextBasedFileFormat with DataSourceRegister {
...
override def

buildReader(
    sparkSession: SparkSession,
    dataSchema: StructType,
    partitionSchema: StructType,
    requiredSchema: StructType,
    filters: Seq[Filter],
    options: Map[String, String],
    hadoopConf: Configuration): (PartitionedFile) => Iterator[InternalRow]

Вот эта функция генерит читалку для CSV. Если посмотреть исходники, то переменная filters там никак не используется

источник

17:27пожаловаться #7

t

tenKe in Moscow Spark

А вот, например, в читалке паркетов используется

источник

17:28пожаловаться #8

IS

Ilya Slesarev in Moscow Spark

Какой-то выстрел в ногу

источник

17:36пожаловаться #9

GP

Grigory Pomadchin in Moscow Spark

+

источник

17:36пожаловаться #10

IS

Ilya Slesarev in Moscow Spark

Если не подумать, то ты ожидаешь фильтра, указываешь его, и садишься в лужу

источник

17:36пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

в колено

источник

17:36пожаловаться #12

t

tenKe in Moscow Spark

не, сам фильтр то отработает

источник

17:36пожаловаться #13

t

tenKe in Moscow Spark

просто он будет работать как физический оператор Filter через кодогенерацию

источник

17:36пожаловаться #14

IS

Ilya Slesarev in Moscow Spark

А, тогда все окей

источник

17:37пожаловаться #15

t

tenKe in Moscow Spark

а не как PredicatePushdown)

источник

17:37пожаловаться #16

IS

Ilya Slesarev in Moscow Spark

Тогда это более, чем ожидаемое поведение

источник

17:37пожаловаться #17

PK

Pavel Klemenkov in Moscow Spark

Господи, надо посмотреть есть ли на этот счёт бага в джире. А то люди ведь смотрят в план, видят пушдаун, а про формат могут и не подумать

источник

17:38пожаловаться #18

GP

Grigory Pomadchin in Moscow Spark

не вижу бага вижу фичу

источник

17:39пожаловаться #19

GP

Grigory Pomadchin in Moscow Spark

источник

17:39пожаловаться #20