Телеграмм чат группы moscowspark страница 441

import org.elasticsearch.spark.sql._
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
val sparkConf = new SparkConf().set("es.index.auto.create", "true").set("es.port", "9200").set("es.nodes", "arm-elastic-1-vm.dev.ix.km")
val sparkSession = SparkSession.builder.config(sparkConf).appName("WriteToES").getOrCreate()
val df = sparkSession.read.format("json").json("/tmp/Gold_record.json")
df.saveToEs("spark/GR")

вылетает ошибка : org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

Подскажите может кто сталкивался \ как решали?

источник

13:33пожаловаться #6

Nikolay Matkheev in Moscow Spark

Комрады, подскажите - доклады с митапов сохраняются?

В ноябре 2019 был мощный доклад про юнит-тестирование в спарке от ребят из теле2

источник

15:08пожаловаться #7

Sergey M in Moscow Spark

Guys
а не подскажете можно ли в spark.write.option("url", ...)
писать несколько url
в моём случае url'ы до нод clickhous'a
т.е. типо
"jdbc:clickhouse://<URL>:<PORT>,jdbc:clickhouse://<URL2>:<PORT2>"

источник

16:56пожаловаться #8

Mikhail Epikhin in Moscow Spark

Sergey M

А что ожидаете в результате?

источник

17:03пожаловаться #9

Mikhail Epikhin in Moscow Spark

Сложить df в два ch?

источник

17:03пожаловаться #10

Sergey M in Moscow Spark

ээ

источник

17:03пожаловаться #11

Mikhail Epikhin in Moscow Spark

Или все ноды указаать?

источник

17:04пожаловаться #12

Sergey M in Moscow Spark

к примеру ds партицирован по date
хочу чтобы по нодам равномерно распределилось
этот кусок - в это CH ноду, этот в другую
автоматически

источник

17:05пожаловаться #13

Mikhail Epikhin in Moscow Spark

Но для этого уже на уровне CH есть партиционирование таблиц

источник

17:06пожаловаться #14

Mikhail Epikhin in Moscow Spark

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/custom-partitioning-key/

clickhouse.tech

Custom Partitioning Key | ClickHouse Documentation

Custom Partitioning Key Partitioning is available for the MergeTree family tables (including replicated tables). Materia

источник

17:06пожаловаться #15

Mikhail Epikhin in Moscow Spark

Сделайте в таблице custom partition key и ch сам будет этим заниматься

источник

17:06пожаловаться #16

Mikhail Epikhin in Moscow Spark

А данные можно сливать в любой бекенд

источник

17:07пожаловаться #17

Mikhail Epikhin in Moscow Spark

А несколько хостов можно указать вот так: jdbc:clickhouse://localhost:1234,another.host.com:4321/ppc, судя по коду тестов https://github.com/ClickHouse/clickhouse-jdbc/blob/c37e208403a075799ce787f4cf6d40911189cd81/src/test/java/ru/yandex/clickhouse/settings/ClickHousePropertiesTest.java#L107

GitHub

ClickHouse/clickhouse-jdbc

JDBC driver for ClickHouse. Contribute to ClickHouse/clickhouse-jdbc development by creating an account on GitHub.

источник

17:08пожаловаться #18

Sergey M in Moscow Spark

Mikhail Epikhin

GitHub

ClickHouse/clickhouse-jdbc

JDBC driver for ClickHouse. Contribute to ClickHouse/clickhouse-jdbc development by creating an account on GitHub.

Аа
Интересно
Спасибо
В любом случае эксперименты покажут как можно, как нельзя

источник

17:22пожаловаться #19

Mikhail Epikhin in Moscow Spark

Sergey M

Аа
Интересно
Спасибо
В любом случае эксперименты покажут как можно, как нельзя

Welcome.
Если хотите делать это на стороне спарка, то надо DF разделять на несколько и каждый писаать в свой CH.

Но если вы хотите именно партиционирования, то лучше это делать в CH.

источник

17:27пожаловаться #20