Size: a a a

2020 September 10

DZ

Dmitry Zuev in Moscow Spark
Vladimir Prus
Есть готовый образ - gcr.io/spark-operator/spark:v3.0.0-hadoop3
30/07 релиз был, они не спешат канешн
источник
2020 September 11

SE

Stanislav Evstratov in Moscow Spark
Ребят, кто нибудь передавал джисоны из спарка в эластиксерч?
источник

DZ

Dmitry Zuev in Moscow Spark
Да
источник

ПФ

Паша Финкельштейн... in Moscow Spark
спасибо
источник

С

Сюткин in Moscow Spark
Игорь Гомановский
В той же задаче, мы обучаем модель, и сохраняем ее саму и ее метрики (массив структур).
Удобно для отправки в REST сервис
Так так расскажешь потом при встрече подробности?)
источник

SE

Stanislav Evstratov in Moscow Spark
import org.elasticsearch.spark.sql._
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
val sparkConf = new SparkConf().set("es.index.auto.create", "true").set("es.port", "9200").set("es.nodes", "arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?
источник

NM

Nikolay Matkheev in Moscow Spark
Комрады, подскажите - доклады с митапов сохраняются?

В ноябре 2019 был мощный доклад про юнит-тестирование в спарке от ребят из теле2
источник

SM

Sergey M in Moscow Spark
Guys
а не подскажете можно ли в spark.write.option("url", ...)
писать несколько url
в моём случае url'ы до нод clickhous'a
т.е. типо
"jdbc:clickhouse://<URL>:<PORT>,jdbc:clickhouse://<URL2>:<PORT2>"
источник

ME

Mikhail Epikhin in Moscow Spark
Sergey M
Guys
а не подскажете можно ли в spark.write.option("url", ...)
писать несколько url
в моём случае url'ы до нод clickhous'a
т.е. типо
"jdbc:clickhouse://<URL>:<PORT>,jdbc:clickhouse://<URL2>:<PORT2>"
А что ожидаете в результате?
источник

ME

Mikhail Epikhin in Moscow Spark
Сложить df в два ch?
источник

SM

Sergey M in Moscow Spark
ээ
источник

ME

Mikhail Epikhin in Moscow Spark
Или все ноды указаать?
источник

SM

Sergey M in Moscow Spark
к примеру ds партицирован по date
хочу чтобы по нодам равномерно распределилось
этот кусок - в это CH ноду, этот в другую
автоматически
источник

ME

Mikhail Epikhin in Moscow Spark
Но для этого уже на уровне CH есть партиционирование таблиц
источник

ME

Mikhail Epikhin in Moscow Spark
источник

ME

Mikhail Epikhin in Moscow Spark
Сделайте в таблице custom partition key и ch сам будет этим заниматься
источник

ME

Mikhail Epikhin in Moscow Spark
А данные можно сливать в любой бекенд
источник

ME

Mikhail Epikhin in Moscow Spark
А несколько хостов можно указать вот так: jdbc:clickhouse://localhost:1234,another.host.com:4321/ppc, судя по коду тестов https://github.com/ClickHouse/clickhouse-jdbc/blob/c37e208403a075799ce787f4cf6d40911189cd81/src/test/java/ru/yandex/clickhouse/settings/ClickHousePropertiesTest.java#L107
источник

SM

Sergey M in Moscow Spark
Аа
Интересно
Спасибо
В любом случае эксперименты покажут как можно, как нельзя
источник

ME

Mikhail Epikhin in Moscow Spark
Sergey M
Аа
Интересно
Спасибо
В любом случае эксперименты покажут как можно, как нельзя
Welcome.
Если хотите делать это на стороне спарка, то надо DF разделять на несколько и каждый писаать в  свой  CH.

Но если вы хотите именно партиционирования, то лучше это делать в CH.
источник