Телеграмм чат группы moscowspark страница 67

2018 November 02

N

Ninja in Moscow Spark

Евгений Глотов

Да, инсёрт оверврайт - это опасно)

Вот как раз его и нужно. Данные вставляются помесячно , и для каждой вставки-создавать партицию

источник

13:51пожаловаться #1

N

Ninja in Moscow Spark

Pavel Klemenkov

Так а в чем разбираться-то? Про партиционирование в Hive написано в доке на офф сайте https://cwiki.apache.org/confluence/display/Hive/Tutorial

Пасип

источник

13:51пожаловаться #2

S

Stanislav in Moscow Spark

Не забудь собрать данные в дф в кучу, а то потом будут вопросы как недавно возникали, что в пределах одной партиции хайва выпало множество мелких файлов

источник

13:59пожаловаться #3

PK

Pavel Klemenkov in Moscow Spark

Stanislav

Не забудь собрать данные в дф в кучу, а то потом будут вопросы как недавно возникали, что в пределах одной партиции хайва выпало множество мелких файлов

Тут подразумевается сделать repartition на небольшое количество партиций, а не collect. Ну так, чисто уточнить ))

источник

14:02пожаловаться #4

N

Ninja in Moscow Spark

Ээ

источник

14:04пожаловаться #5

N

Ninja in Moscow Spark

Хм

источник

14:04пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Ninja

Вот как раз его и нужно. Данные вставляются помесячно , и для каждой вставки-создавать партицию

Ну просто вставить данные нет проблемы, есть небольшие проблемы, если надо перезаписать одну или несколько партиций - их надо будет сначала дропать, а потом записывать

источник

14:04пожаловаться #7

N

Ninja in Moscow Spark

Евгений Глотов

Ну просто вставить данные нет проблемы, есть небольшие проблемы, если надо перезаписать одну или несколько партиций - их надо будет сначала дропать, а потом записывать

Аа, ок. Сейчас для теста для удаления я захожу через интерфейс hive и грохаю сами файлики

источник

14:05пожаловаться #8

N

Ninja in Moscow Spark

Stanislav

Не забудь собрать данные в дф в кучу, а то потом будут вопросы как недавно возникали, что в пределах одной партиции хайва выпало множество мелких файлов

А это случайно не ситуация, когда просто поклали файлики в локейшин? Не через спарк ?

источник

14:07пожаловаться #9

PK

Pavel Klemenkov in Moscow Spark

Ninja

А это случайно не ситуация, когда просто поклали файлики в локейшин? Не через спарк ?

Нет, не та

источник

14:07пожаловаться #10

S

Stanislav in Moscow Spark

Почитай что происходит с рдд/дф при расчетах и стандартное количество партишнов в них при репартишне

источник

14:08пожаловаться #11

N

Ninja in Moscow Spark

Ок, спасибо

источник

14:08пожаловаться #12

2018 November 07

DG

Denis Goa in Moscow Spark

sticker.webp

(44.55 Кб)

источник

14:18пожаловаться #13

DG

Denis Goa in Moscow Spark

Pavel Klemenkov

Эй, ребятка и девчатки. Всем привет! Меня немного (а точнее много) печалит ситуация с откликами на call for talk для очередного митапа. Пока желающих выступать не нашлось от слова совсем. Поэтому обращаюсь к аудитории еще разок: есть ли у кого-то интересные темы и достижения, которыми вы готовы поделиться?

Всем привет,

Я бы с удовольствием освятил только пожелания чего хочу (мечтаю) сделать с этим инструментом . Но я пока только изучаю его , и опыта практического применения нет .

Железо нужно хорошее, а бюджета нет.

Потому пока только изучение , а потом может разовые практики на тестовых облаках майл.ру, тоже на простых тестовых данных.

Хочу с этим инструментом попробовать решить ряд задач OLAP на DROID over SPARK которые старенькое железо и оракл пока не хотят решать ни шустро, иногда сутками на пролет.

Буду рад услышать любой совет о несбыточность этой мечты , или о ее необдуманности.

Отсутствие ответов на мой спам¡ в этот чат в ближайшие 2 недели придется трактовать как факт того что в Московском сообществе все в основном любители чужого опыта (никого не хочу обидеть), и нет среди нас естествоИспытателей в реальном

источник

14:27пожаловаться #14

PK

Pavel Klemenkov in Moscow Spark

С козырей зашел первым же постом ))

источник

14:28пожаловаться #15

DG

Denis Goa in Moscow Spark

😉 в ожидании чуда

источник

14:41пожаловаться #16

AI

Andrei Iatsuk in Moscow Spark

А почему именно OLAP поверх SPARK? Я на прошлом месте работы не успел с ним поработать, но слышал, что в Joom нужны были OLAP-кубы для аналитики. И им не подошли ни Apache Spark, ни Apache Kylin.

источник

14:51пожаловаться #17

FL

Fedor Lavrentyev in Moscow Spark

Denis Goa

Всем привет,

Я бы с удовольствием освятил только пожелания чего хочу (мечтаю) сделать с этим инструментом . Но я пока только изучаю его , и опыта практического применения нет .

Железо нужно хорошее, а бюджета нет.

Потому пока только изучение , а потом может разовые практики на тестовых облаках майл.ру, тоже на простых тестовых данных.

Хочу с этим инструментом попробовать решить ряд задач OLAP на DROID over SPARK которые старенькое железо и оракл пока не хотят решать ни шустро, иногда сутками на пролет.

Буду рад услышать любой совет о несбыточность этой мечты , или о ее необдуманности.

Отсутствие ответов на мой спам¡ в этот чат в ближайшие 2 недели придется трактовать как факт того что в Московском сообществе все в основном любители чужого опыта (никого не хочу обидеть), и нет среди нас естествоИспытателей в реальном

Я не осилил ваш пост.
Где тут вопрос? Каких ответов вы ожидаете? О каком вообще инструменте речь?

источник

15:07пожаловаться #18

AS

Andrey Smirnov in Moscow Spark

да обычный троль, проходим мимо

источник

15:31пожаловаться #19

AS

Andrey Smirnov in Moscow Spark

Andrei Iatsuk

А почему именно OLAP поверх SPARK? Я на прошлом месте работы не успел с ним поработать, но слышал, что в Joom нужны были OLAP-кубы для аналитики. И им не подошли ни Apache Spark, ни Apache Kylin.

на прошлой работе делали кубы как раз с помощью спарка, а вертели их уже с помощью bi.

источник

15:33пожаловаться #20