Телеграмм чат группы moscowspark страница 37

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

1
«
…
‹
32
33
34
35
36
37
38
›
…
»

2018 July 02

NK

ID:282687363 in Moscow Spark

Ну, если, например, хранилище, которое внизу - это ClickHouse, то прав ли я, что мне не очень-то нужен Spark?

источник

10:11пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

Не знаю, можно ли назвать это успехом, но у нас один товарищ одним sql-запросом нагенерил 100ГБ/с трафика на внешней СХД, которая использовалась вместо темп-дисков. Думаю, в качестве хранилки её тоже вполне можно использовать, но это $$$)

источник

10:12пожаловаться #2

t

tenKe in Moscow Spark

ID:282687363

А не подскажете истории успеха Spark без HDFS/Hive/S3 в качестве источника данных (то есть не когда Spark Streaming пишет куда-то не в Hadoop)? Я что-то навскидку не могу нагуглить.

мне кажется тысячи их

источник

10:14пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Если уже есть hpc-кластер, то на нём можно развернуть бигдату, но завлабы не отдают свои кластеры😆

источник

10:14пожаловаться #4

t

tenKe in Moscow Spark

мы пишем в хдфс, кассандру, ластик, кафку из стриминга

источник

10:15пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

ID:282687363

Ну, если, например, хранилище, которое внизу - это ClickHouse, то прав ли я, что мне не очень-то нужен Spark?

Боря, я буквально на днях тестил спарк поверх кликхауса. Это шняга, почему-то через odbc драйвер не прокидываются оптимизации прямо в клик. Ну и да, коннектора нормального нет, поэтому посчитать что-то быстрее одним кликом.

источник

10:15пожаловаться #6

PK

Pavel Klemenkov in Moscow Spark

Но если у тебя есть внешний поток и ты его обрабатываешь в спарке и пишешь в клик, а потом считаешь только кликом, то почему нет

источник

10:16пожаловаться #7

FL

Fedor Lavrentyev in Moscow Spark

HBase, Accumulo, Cassandra нормально работают в качестве источников. ES тоже работает. Видел, люди пытаются Ceph вместо HDFS прикрутить.

источник

10:17пожаловаться #8

AP

Alexander Piminov in Moscow Spark

ID:282687363

А не подскажете истории успеха Spark без HDFS/Hive/S3 в качестве источника данных (то есть не когда Spark Streaming пишет куда-то не в Hadoop)? Я что-то навскидку не могу нагуглить.

Зависит от конкретного storage, точнее, реализации соответствующего коннектора. Например, для Cassandra или MongoDB относительно нормальные. Один из критериев - насколько эффективно работает pushdown нагрузки.

источник

10:18пожаловаться #9

FL

Fedor Lavrentyev in Moscow Spark

Надо понимать, что разделяя вычислительные ресурсы и хранилище, ты теряешь преимущества от data locality. При хорошей сети это не критично, а при плохой - ...

источник

10:19пожаловаться #10

NK

ID:282687363 in Moscow Spark

мы пишем в хдфс, кассандру, ластик, кафку из стриминга

да, истории успеха по записи Spark Streaming-ом куда-то я видел. Вопрос был именно про чтение из.

источник

10:22пожаловаться #11

NK

ID:282687363 in Moscow Spark

Pavel Klemenkov

Боря, я буквально на днях тестил спарк поверх кликхауса. Это шняга, почему-то через odbc драйвер не прокидываются оптимизации прямо в клик. Ну и да, коннектора нормального нет, поэтому посчитать что-то быстрее одним кликом.

мне вот тоже не понравилось читать из CH Spark-ом:(

источник

10:23пожаловаться #12

AV

Artyom Vybornov in Moscow Spark

Для Spark внизу может быть любая BigTable-подобная базюка (если под нее уже написан годный конектор). Тогда данные хранятся в ней.

То есть БД должна быть исходно заточена под то, чтобы из нее вычитывали/записывали данные большими батчами.

источник

10:23пожаловаться #13

AV

Artyom Vybornov in Moscow Spark

Про CH: в него надо писать уже денормализованные и подготовленные данные. Делать серьезный ETL поверх CH то еще извращение.

источник

10:24пожаловаться #14

PK

Pavel Klemenkov in Moscow Spark

Artyom Vybornov

Про CH: в него надо писать уже денормализованные и подготовленные данные. Делать серьезный ETL поверх CH то еще извращение.

Тем, Боря про чтение, вроде

источник

10:24пожаловаться #15

AV

Artyom Vybornov in Moscow Spark

Я про это же и говорю.
Просто чтобы не нужен был Spark, в CH нужно до записи в него готовить данные.

источник

10:25пожаловаться #16

NK

ID:282687363 in Moscow Spark

Fedor Lavrentyev

HBase, Accumulo, Cassandra нормально работают в качестве источников. ES тоже работает. Видел, люди пытаются Ceph вместо HDFS прикрутить.

Да, забыл ещё эти слова:) Но в них совсем не силён. И мне казалось, что хороший HBase/Accumulo не бывает без HDFS? 🤔

источник

10:25пожаловаться #17

AV

Artyom Vybornov in Moscow Spark

да

источник

10:26пожаловаться #18

AV

Artyom Vybornov in Moscow Spark

Неправильно прочитал вопрос.
Можно использовать без HDFS

источник

10:28пожаловаться #19

NK

ID:282687363 in Moscow Spark

@art_vybor, @fediq, @pklemenkov спасибо. Про то, что если хранить где-то совсем сбоку, то теряется локальность данных, и про то, что на CH сложно делать ETL от сырых данных до сложных агрегатов, но если кто-то добрый уже записал, то CH проживёт из без Spark - хорошие пойнты:)

источник

10:32пожаловаться #20

1
«
…
‹
32
33
34
35
36
37
38
›
…
»