Size: a a a

2020 January 31

E

Eugene in Moscow Spark
Ещё из интересного. В апстриме есть много изменений, которые не вошли в первый превью.
источник

E

Eugene in Moscow Spark
Support JDK 11 with Hadoop 2.7
Spark SQL will respect its own default format (i.e., parquet) when users do CREATE TABLE without USING or STORED AS clauses
Enable Parquet nested schema pruning and nested pruning on expressions by default
Add observable Metrics for Streaming queries
Column pruning through nondeterministic expressions
RecordBinaryComparator should check endianness when compared by long 
Improve parallelism for local shuffle reader in adaptive query execution
Upgrade Apache Arrow to version 0.15.1
Various interval-related SQL support
Add a mode to pin Python thread into JVM's
Provide option to clean up completed files in streaming query
источник

E

Eugene in Moscow Spark
Их хотят добавить в превью 2.
источник

ME

Mikhail Epikhin in Moscow Spark
А external shuffle service не добавли пока?
источник

E

Eugene in Moscow Spark
Mikhail Epikhin
А external shuffle service не добавли пока?
Не добавили. Пока готовят пропозал. Но судя по всему, код будет хороший, потому как готовить будут ребята из Нетфликс, и, кстати, Убер и Палантир.
источник

IS

Ilya Sereda in Moscow Spark
Всем привет. Подскажите, как вы пишите UUID из spark в clickhouse через jdbc драйвер?
источник

SO

Simon Osipov in Moscow Spark
👍👍
источник
2020 February 01

E

Eugene in Moscow Spark
Кстати, вот уже второй раз вижу этот мем, и не понимаю.)) Откуда?))
источник

ТС

Тимофей Смирнов... in Moscow Spark
Eugene
Кстати, вот уже второй раз вижу этот мем, и не понимаю.)) Откуда?))
картинка из аппарата для проверки зрения, видимо у вас зрение хорошее)
источник

GP

Grigory Pomadchin in Moscow Spark
а я никак не пойму это спам или нет
источник

GP

Grigory Pomadchin in Moscow Spark
источник

DA

Dmitry Andreev in Moscow Spark
Grigory Pomadchin
а я никак не пойму это спам или нет
Сорян, чатиком ошибся....
источник

DA

Dmitry Andreev in Moscow Spark
источник

DA

Dmitry Andreev in Moscow Spark
Тимофей Смирнов
картинка из аппарата для проверки зрения, видимо у вас зрение хорошее)
А вам спасибо, что поведали о чем это :))
источник
2020 February 03

Н

Никита in Moscow Spark
привет, а как взять сэмпл из очень большой папки?

df = spark.read.json(source).limit(10000)
чето долго работает, мб за инференса схемы
источник

PK

Pavel Klemenkov in Moscow Spark
Никита
привет, а как взять сэмпл из очень большой папки?

df = spark.read.json(source).limit(10000)
чето долго работает, мб за инференса схемы
Лимит не даст тебе репрезентативную выборку
источник

PK

Pavel Klemenkov in Moscow Spark
Если схема не указана, то Спарк весь датасет вычитает для инференса схемы
источник

AL

Anton Lashin in Moscow Spark
если samplingRatio не указать
источник

Н

Никита in Moscow Spark
спс, со своей схемой быстренько отработало
источник

АЖ

Андрей Жуков... in Moscow Spark
Pavel Klemenkov
Если схема не указана, то Спарк весь датасет вычитает для инференса схемы
А разве с 2.4 там не захардкожен сэмплинг?
источник