Size: a a a

2021 February 20

ИК

Иван Калининский... in Moscow Spark
Паша Финкельштейн
@KaiNie_R я правильно понимаю же?
да, если алгоритм это умеет и инкремент и run схлопнуть и это действительно нужно. Если инкремент каждый раз непредсказуемый, то run выйдет дороже, чем просто дельта по каждой строке. Но в идеале, да, 100500 миллионов единиц уложатся в несколько байт
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Иван Калининский
да, если алгоритм это умеет и инкремент и run схлопнуть и это действительно нужно. Если инкремент каждый раз непредсказуемый, то run выйдет дороже, чем просто дельта по каждой строке. Но в идеале, да, 100500 миллионов единиц уложатся в несколько байт
Ну вот как я и сказал - в случае wav файла с константной частотой дискретизации run length будет идеален и даже дельта хороша
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну вот, значит орк тут бы хорошо подошёл с партиционированием
источник

NN

No Name in Moscow Spark
@asm0dey @KaiNie_R я правильно понял, что сейчас спарк ни с одним из поддерживаемых форматов так не кодирует?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
No Name
@asm0dey @KaiNie_R я правильно понял, что сейчас спарк ни с одним из поддерживаемых форматов так не кодирует?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Может когда формат подходит, видимо
источник

NN

No Name in Moscow Spark
Пнятненько
источник

А

Алексей in Moscow Spark
а в паркете какие варианты сжатия?
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Алексей
а в паркете какие варианты сжатия?
Точно есть rle, dictionary и bit packing. Насчёт delta вот не помню
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Алексей
а в паркете какие варианты сжатия?
источник

А

Алексей in Moscow Spark
спасибо
источник

NN

No Name in Moscow Spark
Aleksandr Aleksandrov
Точно есть rle, dictionary и bit packing. Насчёт delta вот не помню
А оно все интеллектуальным образом само себя применяет, или нужно как-то указать явно на это?
источник

AA

Aleksandr Aleksandro... in Moscow Spark
No Name
А оно все интеллектуальным образом само себя применяет, или нужно как-то указать явно на это?
По моему сам определяет, по крайней мере я не нашёл как этим управлять. Точно можно задать размер словаря. Он вроде по умолчанию пытается словарем закодировать, но если словарь превышает задранное значение, то он скатывается в другие методы.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
@olegchir мы короче всё решили. Орк поддерживает ран ленгснкодинг!
источник

DG

Denis Gabaydulin in Moscow Spark
Привет, а никто не занимался/не встречал построение поисковых индексов (в частности lucene), на spark/MR?
источник

АР

Андрей Романов... in Moscow Spark
Denis Gabaydulin
Привет, а никто не занимался/не встречал построение поисковых индексов (в частности lucene), на spark/MR?
Гугл вот такое выдал, может вам поможет

https://github.com/zouzias/spark-lucenerdd

https://github.com/agile-lab-dev/sparksearchengine
источник

DG

Denis Gabaydulin in Moscow Spark
Ага, эти проекты видел. Но мне интересно не читать, а писать.
Я встречал проприетарные решения на эту тему. В частности в Яндекс. Стало интересно а пробовал ли кто-то на spark такое сделать.
источник
2021 February 25

AS

Anton Solomonov in Moscow Spark
добрый день. Помогите, пожалуйста, решить такую задачу
есть таблица с полем values (stringType)  нужно получить значения как в поле result (DoubleType)
Как это можно сделать ?
источник

AS

Andrey Smirnov in Moscow Spark
Anton Solomonov
добрый день. Помогите, пожалуйста, решить такую задачу
есть таблица с полем values (stringType)  нужно получить значения как в поле result (DoubleType)
Как это можно сделать ?
replace a потом cast то double
источник

AS

Anton Solomonov in Moscow Spark
Replace запятых в цифрах я сделаю, а текстовые данные могут быть произвольные. Он текст преобразует в null если делать cast to double ?
источник