Size: a a a

2018 November 02

N

Ninja in Moscow Spark
Евгений Глотов
Да, инсёрт оверврайт - это опасно)
Вот как раз его и нужно. Данные вставляются помесячно , и для каждой вставки-создавать партицию
источник

N

Ninja in Moscow Spark
Pavel Klemenkov
Так а в чем разбираться-то? Про партиционирование в Hive написано в доке на офф сайте https://cwiki.apache.org/confluence/display/Hive/Tutorial
Пасип
источник

S

Stanislav in Moscow Spark
Не забудь собрать данные в дф в кучу, а то потом будут вопросы как недавно возникали, что в пределах одной партиции хайва выпало множество мелких файлов
источник

PK

Pavel Klemenkov in Moscow Spark
Stanislav
Не забудь собрать данные в дф в кучу, а то потом будут вопросы как недавно возникали, что в пределах одной партиции хайва выпало множество мелких файлов
Тут подразумевается сделать repartition на небольшое количество партиций, а не collect. Ну так, чисто уточнить ))
источник

N

Ninja in Moscow Spark
Ээ
источник

N

Ninja in Moscow Spark
Хм
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ninja
Вот как раз его и нужно. Данные вставляются помесячно , и для каждой вставки-создавать партицию
Ну просто вставить данные нет проблемы, есть небольшие проблемы, если надо перезаписать одну или несколько партиций - их надо будет сначала дропать, а потом записывать
источник

N

Ninja in Moscow Spark
Евгений Глотов
Ну просто вставить данные нет проблемы, есть небольшие проблемы, если надо перезаписать одну или несколько партиций - их надо будет сначала дропать, а потом записывать
Аа, ок. Сейчас для теста для удаления я захожу через интерфейс hive и грохаю сами файлики
источник

N

Ninja in Moscow Spark
Stanislav
Не забудь собрать данные в дф в кучу, а то потом будут вопросы как недавно возникали, что в пределах одной партиции хайва выпало множество мелких файлов
А это случайно не ситуация, когда просто поклали файлики в локейшин? Не через спарк ?
источник

PK

Pavel Klemenkov in Moscow Spark
Ninja
А это случайно не ситуация, когда просто поклали файлики в локейшин? Не через спарк ?
Нет, не та
источник

S

Stanislav in Moscow Spark
Почитай что происходит с рдд/дф при расчетах и стандартное количество партишнов в них при репартишне
источник

N

Ninja in Moscow Spark
Ок, спасибо
источник
2018 November 07

DG

Denis Goa in Moscow Spark
источник

DG

Denis Goa in Moscow Spark
Pavel Klemenkov
Эй, ребятка и девчатки. Всем привет! Меня немного (а точнее много) печалит ситуация с откликами на call for talk для очередного митапа. Пока желающих выступать не нашлось от слова совсем. Поэтому обращаюсь к аудитории еще разок: есть ли у кого-то интересные темы и достижения, которыми вы готовы поделиться?
Всем привет,

Я бы с удовольствием освятил только пожелания чего хочу (мечтаю) сделать с этим инструментом . Но я пока только изучаю его , и опыта практического применения нет .

Железо нужно хорошее, а бюджета нет.

Потому пока только изучение , а потом может разовые практики на тестовых облаках майл.ру, тоже на простых тестовых данных.

Хочу с этим инструментом попробовать решить ряд задач OLAP на DROID  over SPARK которые старенькое железо и оракл пока не хотят решать ни  шустро, иногда сутками на пролет.

Буду рад услышать любой совет о несбыточность этой мечты , или о ее необдуманности.


Отсутствие ответов на мой спам¡ в этот чат в ближайшие 2 недели придется трактовать как факт того что в Московском сообществе все в основном любители чужого опыта  (никого не хочу обидеть), и нет среди нас естествоИспытателей в реальном
источник

PK

Pavel Klemenkov in Moscow Spark
С козырей зашел первым же постом ))
источник

DG

Denis Goa in Moscow Spark
😉 в ожидании чуда
источник

AI

Andrei Iatsuk in Moscow Spark
А почему именно OLAP поверх SPARK? Я на прошлом месте работы не успел с ним поработать, но слышал, что в Joom нужны были OLAP-кубы для аналитики. И им не подошли ни Apache Spark, ни Apache Kylin.
источник

FL

Fedor Lavrentyev in Moscow Spark
Denis Goa
Всем привет,

Я бы с удовольствием освятил только пожелания чего хочу (мечтаю) сделать с этим инструментом . Но я пока только изучаю его , и опыта практического применения нет .

Железо нужно хорошее, а бюджета нет.

Потому пока только изучение , а потом может разовые практики на тестовых облаках майл.ру, тоже на простых тестовых данных.

Хочу с этим инструментом попробовать решить ряд задач OLAP на DROID  over SPARK которые старенькое железо и оракл пока не хотят решать ни  шустро, иногда сутками на пролет.

Буду рад услышать любой совет о несбыточность этой мечты , или о ее необдуманности.


Отсутствие ответов на мой спам¡ в этот чат в ближайшие 2 недели придется трактовать как факт того что в Московском сообществе все в основном любители чужого опыта  (никого не хочу обидеть), и нет среди нас естествоИспытателей в реальном
Я не осилил ваш пост.
Где тут вопрос? Каких ответов вы ожидаете? О каком вообще инструменте речь?
источник

AS

Andrey Smirnov in Moscow Spark
да обычный троль, проходим мимо
источник

AS

Andrey Smirnov in Moscow Spark
Andrei Iatsuk
А почему именно OLAP поверх SPARK? Я на прошлом месте работы не успел с ним поработать, но слышал, что в Joom нужны были OLAP-кубы для аналитики. И им не подошли ни Apache Spark, ни Apache Kylin.
на прошлой работе делали кубы как раз с помощью спарка, а вертели их уже с помощью bi.
источник