Телеграмм чат группы moscowspark страница 250

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2020 January 31

Eugene in Moscow Spark

Ещё из интересного. В апстриме есть много изменений, которые не вошли в первый превью.

источник

12:37пожаловаться #1

Eugene in Moscow Spark

Support JDK 11 with Hadoop 2.7
Spark SQL will respect its own default format (i.e., parquet) when users do CREATE TABLE without USING or STORED AS clauses
Enable Parquet nested schema pruning and nested pruning on expressions by default
Add observable Metrics for Streaming queries
Column pruning through nondeterministic expressions
RecordBinaryComparator should check endianness when compared by long
Improve parallelism for local shuffle reader in adaptive query execution
Upgrade Apache Arrow to version 0.15.1
Various interval-related SQL support
Add a mode to pin Python thread into JVM's
Provide option to clean up completed files in streaming query

источник

12:37пожаловаться #2

Eugene in Moscow Spark

Их хотят добавить в превью 2.

источник

12:37пожаловаться #3

Mikhail Epikhin in Moscow Spark

А external shuffle service не добавли пока?

источник

12:41пожаловаться #4

Eugene in Moscow Spark

Mikhail Epikhin

А external shuffle service не добавли пока?

Не добавили. Пока готовят пропозал. Но судя по всему, код будет хороший, потому как готовить будут ребята из Нетфликс, и, кстати, Убер и Палантир.

источник

13:39пожаловаться #5

Ilya Sereda in Moscow Spark

Всем привет. Подскажите, как вы пишите UUID из spark в clickhouse через jdbc драйвер?

источник

14:01пожаловаться #6

Simon Osipov in Moscow Spark

👍👍

источник

19:37пожаловаться #7

2020 February 01

Eugene in Moscow Spark

Кстати, вот уже второй раз вижу этот мем, и не понимаю.)) Откуда?))

источник

16:29пожаловаться #8

ТС

Тимофей Смирнов... in Moscow Spark

Eugene

Кстати, вот уже второй раз вижу этот мем, и не понимаю.)) Откуда?))

картинка из аппарата для проверки зрения, видимо у вас зрение хорошее)

источник

16:38пожаловаться #9

Grigory Pomadchin in Moscow Spark

а я никак не пойму это спам или нет

источник

16:39пожаловаться #10

Grigory Pomadchin in Moscow Spark

sticker.webp

(3.07 Кб)

источник

16:39пожаловаться #11

Dmitry Andreev in Moscow Spark

Grigory Pomadchin

а я никак не пойму это спам или нет

Сорян, чатиком ошибся....

источник

16:42пожаловаться #12

Dmitry Andreev in Moscow Spark

sticker.webp

(31.77 Кб)

источник

16:42пожаловаться #13

Dmitry Andreev in Moscow Spark

Тимофей Смирнов

картинка из аппарата для проверки зрения, видимо у вас зрение хорошее)

А вам спасибо, что поведали о чем это :))

источник

16:46пожаловаться #14

2020 February 03

Никита in Moscow Spark

привет, а как взять сэмпл из очень большой папки?

df = spark.read.json(source).limit(10000)

чето долго работает, мб за инференса схемы

источник

18:57пожаловаться #15

Pavel Klemenkov in Moscow Spark

Никита

привет, а как взять сэмпл из очень большой папки?

df = spark.read.json(source).limit(10000)

чето долго работает, мб за инференса схемы

Лимит не даст тебе репрезентативную выборку

источник

19:00пожаловаться #16

Pavel Klemenkov in Moscow Spark

Если схема не указана, то Спарк весь датасет вычитает для инференса схемы

источник

19:01пожаловаться #17

Anton Lashin in Moscow Spark

если samplingRatio не указать

источник

19:02пожаловаться #18

Никита in Moscow Spark

спс, со своей схемой быстренько отработало

источник

19:46пожаловаться #19

АЖ

Андрей Жуков... in Moscow Spark

Pavel Klemenkov

Если схема не указана, то Спарк весь датасет вычитает для инференса схемы

А разве с 2.4 там не захардкожен сэмплинг?

источник

19:49пожаловаться #20