Size: a a a

2021 May 28

N

Nikita Blagodarnyy in Moscow Spark
твой пакет не дошёл. ты udp.
источник

PK

Pavel Klemenkov in Moscow Spark
Прямо наплыв, действительно
источник

NN

Nordic Nordic in Moscow Spark
Друзья, приветствую! У кого есть опыт через локалный Pycharm(windows) запускать applicate на ремоте Cloudere?
источник

NN

Nordic Nordic in Moscow Spark
from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .appName('Cloudera Sample Job') \
        .master('yarn') \
        .config('spark.hadoop.fs.defaultFS','hdfs://192.168.56.172:8020') \
        .config('spark.hadoop.yarn.resourcemanager.address','192.168.56.172:8032') \
        .getOrCreate()
print ("--------Hello Wordld------------")
источник

NN

Nordic Nordic in Moscow Spark
polucayu takuyu oshibku ::  thread "main" org.apache.spark.SparkException: When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment
источник

N

Nail in Moscow Spark
Нужно указать путь до папки с конфигами кластера
источник

NN

Nordic Nordic in Moscow Spark
yest uvas exaple kakoy ne bud ?
источник
2021 May 29

AS

Anton Solomonov in Moscow Spark
Привет!
Подскажите в чем может быть проблема в скорости отработки запроса:
В hive есть таблица, которая содержит 300 млн + строк.
Отработка обычного запроса groupby по 3м полям таблицы занимает 2,5 часа. В качестве аргумента agg указывается просто count по полю.

Это нормальная скорость 2,5 часа для такого запроса или долго ?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Как партиционировано?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Обычно чтобы такого не было просто всё партиционируют
источник

N

Nail in Moscow Spark
Перекос в данных
источник

AS

Anton Solomonov in Moscow Spark
По месяцам
источник

AS

Anton Solomonov in Moscow Spark
Что такое перекос данных ?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А группировка?
источник

AS

Anton Solomonov in Moscow Spark
Группировка по другим полям
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Например все данные попадают в одну группу
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну то есть надо буквально сделать тотал ордер на большом количестве данных без предварительной подготовки
источник

AS

Anton Solomonov in Moscow Spark
Да, примерно так
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Движок под хайвом Спарк?
источник

AS

Anton Solomonov in Moscow Spark
Да
источник