Телеграмм чат группы moscowspark страница 573

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

968 membersпожаловаться на группу

2021 February 20

ИК

Иван Калининский... in Moscow Spark

Паша Финкельштейн

@KaiNie_R я правильно понимаю же?

да, если алгоритм это умеет и инкремент и run схлопнуть и это действительно нужно. Если инкремент каждый раз непредсказуемый, то run выйдет дороже, чем просто дельта по каждой строке. Но в идеале, да, 100500 миллионов единиц уложатся в несколько байт

источник

12:07пожаловаться #1

ПФ

Паша Финкельштейн... in Moscow Spark

Иван Калининский

да, если алгоритм это умеет и инкремент и run схлопнуть и это действительно нужно. Если инкремент каждый раз непредсказуемый, то run выйдет дороже, чем просто дельта по каждой строке. Но в идеале, да, 100500 миллионов единиц уложатся в несколько байт

Ну вот как я и сказал - в случае wav файла с константной частотой дискретизации run length будет идеален и даже дельта хороша

источник

12:09пожаловаться #2

ПФ

Паша Финкельштейн... in Moscow Spark

Ну вот, значит орк тут бы хорошо подошёл с партиционированием

источник

12:10пожаловаться #3

NN

No Name in Moscow Spark

@asm0dey @KaiNie_R я правильно понял, что сейчас спарк ни с одним из поддерживаемых форматов так не кодирует?

источник

12:10пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

@asm0dey @KaiNie_R я правильно понял, что сейчас спарк ни с одним из поддерживаемых форматов так не кодирует?

https://t.me/moscowspark/14462

iKaleeninskii in Moscow Spark

ORC uses type specific readers and writers that provide light weight compression techniques such as dictionary encoding, bit packing, delta encoding, and run length encoding

источник

12:11пожаловаться #5

ПФ

Паша Финкельштейн... in Moscow Spark

Может когда формат подходит, видимо

источник

12:11пожаловаться #6

NN

No Name in Moscow Spark

Паша Финкельштейн

https://t.me/moscowspark/14462

iKaleeninskii in Moscow Spark

ORC uses type specific readers and writers that provide light weight compression techniques such as dictionary encoding, bit packing, delta encoding, and run length encoding

Пнятненько

источник

12:18пожаловаться #7

А

Алексей in Moscow Spark

а в паркете какие варианты сжатия?

источник

12:25пожаловаться #8

AA

Aleksandr Aleksandro... in Moscow Spark

а в паркете какие варианты сжатия?

Точно есть rle, dictionary и bit packing. Насчёт delta вот не помню

источник

12:30пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

а в паркете какие варианты сжатия?

https://github.com/apache/parquet-format/blob/master/Encodings.md
run length тоже есть

apache/parquet-format

Apache Parquet. Contribute to apache/parquet-format development by creating an account on GitHub.

источник

12:30пожаловаться #10

А

Алексей in Moscow Spark

спасибо

источник

12:45пожаловаться #11

NN

No Name in Moscow Spark

Aleksandr Aleksandrov

Точно есть rle, dictionary и bit packing. Насчёт delta вот не помню

А оно все интеллектуальным образом само себя применяет, или нужно как-то указать явно на это?

источник

12:49пожаловаться #12

AA

Aleksandr Aleksandro... in Moscow Spark

А оно все интеллектуальным образом само себя применяет, или нужно как-то указать явно на это?

По моему сам определяет, по крайней мере я не нашёл как этим управлять. Точно можно задать размер словаря. Он вроде по умолчанию пытается словарем закодировать, но если словарь превышает задранное значение, то он скатывается в другие методы.

источник

12:53пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

@olegchir мы короче всё решили. Орк поддерживает ран ленгснкодинг!

источник

17:31пожаловаться #14

DG

Denis Gabaydulin in Moscow Spark

Привет, а никто не занимался/не встречал построение поисковых индексов (в частности lucene), на spark/MR?

источник

20:24пожаловаться #15

АР

Андрей Романов... in Moscow Spark

Denis Gabaydulin

Привет, а никто не занимался/не встречал построение поисковых индексов (в частности lucene), на spark/MR?

Гугл вот такое выдал, может вам поможет

https://github.com/zouzias/spark-lucenerdd

https://github.com/agile-lab-dev/sparksearchengine

zouzias/spark-lucenerdd

Spark RDD with Lucene's query and entity linkage capabilities - zouzias/spark-lucenerdd

источник

20:26пожаловаться #16

DG

Denis Gabaydulin in Moscow Spark

Ага, эти проекты видел. Но мне интересно не читать, а писать.
Я встречал проприетарные решения на эту тему. В частности в Яндекс. Стало интересно а пробовал ли кто-то на spark такое сделать.

источник

20:28пожаловаться #17

2021 February 25

AS

Anton Solomonov in Moscow Spark

добрый день. Помогите, пожалуйста, решить такую задачу
есть таблица с полем values (stringType) нужно получить значения как в поле result (DoubleType)
Как это можно сделать ?

источник

18:22пожаловаться #18

AS

Andrey Smirnov in Moscow Spark

Anton Solomonov

добрый день. Помогите, пожалуйста, решить такую задачу
есть таблица с полем values (stringType) нужно получить значения как в поле result (DoubleType)
Как это можно сделать ?

replace a потом cast то double

источник

18:26пожаловаться #19

AS

Anton Solomonov in Moscow Spark

Replace запятых в цифрах я сделаю, а текстовые данные могут быть произвольные. Он текст преобразует в null если делать cast to double ?

источник

18:29пожаловаться #20