Телеграмм чат группы moscowspark страница 561

2021 February 15

А

на csv не сработает maxPartitionBytes, если только он не пожат чем-то типа bzip2 или другого разделяемого кодека

вроде побилось:

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 1024*1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).rdd.getNumPartitions
res7: Int = 14

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).rdd.getNumPartitions
res9: Int = 13698

источник

12:21пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

Евгений Глотов

Где-то на хитхабе валяется гринплам-коннектор, но вообще он под лицензией пивотал, а пивотал купили вмваре и всё закрыли

С сайта пивотал качнуть не получилось

источник

12:21пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

Алексей

вроде побилось:

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 1024*1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).rdd.getNumPartitions
res7: Int = 14

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).rdd.getNumPartitions
res9: Int = 13698

клёво, спасибо

источник

12:21пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

я был уверен, что csv не побить так просто

источник

12:22пожаловаться #4

ИК

Иван Калининский... in Moscow Spark

вот бы ещё количество записей в партициях посмотреть?

источник

12:22пожаловаться #5

А

Алексей in Moscow Spark

Иван Калининский

я был уверен, что csv не побить так просто

сложно, но, видимо, возможно. Вероятно, бьется на части позиционированием в файле, а потом ищутся концы строк

источник

12:24пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Alexander Dorofeev

Всем привет!
Подскажите, плиз, какой JAR нужно использовать, чтобы коннектиться к GreenPlum через SPARK? Попробовал несколько jar для postgresql 9.4, коннект проходит, но читает только структуру таблицы, данные в spark df не попадают

Попробуй вот это собрать и подкинуть в джарки:
https://github.com/devopsprodigy/spark-greenplum-connector

GitHub

devopsprodigy/spark-greenplum-connector

DevOpsProdigy Spark Greenplum Connector. Contribute to devopsprodigy/spark-greenplum-connector development by creating an account on GitHub.

источник

12:26пожаловаться #7

А

Алексей in Moscow Spark

Иван Калининский

вот бы ещё количество записей в партициях посмотреть?

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 2*1024*1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).mapPartitions(r=>Iterator(r.size)).show()
+-----+
|value|
+-----+
|81047|
|81315|
|81057|
|80898|
|80921|
|80805|
|55602|
+-----+

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 4*1024*1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).mapPartitions(r=>Iterator(r.size)).show()
+------+
| value|
+------+
|162362|
|161955|
|161726|
| 55602|
+------+

источник

12:49пожаловаться #8

ИК

Иван Калининский... in Moscow Spark

Алексей

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 2*1024*1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).mapPartitions(r=>Iterator(r.size)).show()
+-----+
|value|
+-----+
|81047|
|81315|
|81057|
|80898|
|80921|
|80805|
|55602|
+-----+

scala> spark.conf.set("spark.sql.files.maxPartitionBytes", 4*1024*1024)
scala> spark.read.format("csv").option("header", "false").option("delimiter", ",").load(file).mapPartitions(r=>Iterator(r.size)).show()
+------+
| value|
+------+
|162362|
|161955|
|161726|
| 55602|
+------+

Благодарю, убедительно

источник

12:50пожаловаться #9

NN

No Name in Moscow Spark

Ребят, а я вот задумался о чём. Допустим, у меня в hdfs стоит коэффициент репликации 3, и даже все серваки стоят в одном датацентре, но в разных стойках. Конфиги спарк-сессии позволяют поднять несколько экзекуторов на одной ноде. Ну и у меня запускается некая джоба, которая вот колбасит на кластере данные туда-сюда. Вопрос - у спарка под капотом есть какая-то политика, в каких случаях какую реплику данных он возьмёт? Будет ли стараться искать колокейтед, или же, наоборот, постарается выбрать из разных стоек/нод? Или вообще рандом?

источник

13:01пожаловаться #10

А

Алексей in Moscow Spark

No Name

Ребят, а я вот задумался о чём. Допустим, у меня в hdfs стоит коэффициент репликации 3, и даже все серваки стоят в одном датацентре, но в разных стойках. Конфиги спарк-сессии позволяют поднять несколько экзекуторов на одной ноде. Ну и у меня запускается некая джоба, которая вот колбасит на кластере данные туда-сюда. Вопрос - у спарка под капотом есть какая-то политика, в каких случаях какую реплику данных он возьмёт? Будет ли стараться искать колокейтед, или же, наоборот, постарается выбрать из разных стоек/нод? Или вообще рандом?

Выше писали, что смотрит: https://t.me/moscowspark/13830 и пытается запустить таск рядом, и будет запущено в другом месте, если время старта превысило spark.locality.wait

iKaleeninskii in Moscow Spark

спарк хитрый, знает, на каких хостах лежат исходные файлы, и на них же распределяет таски

источник

13:09пожаловаться #11

NN

No Name in Moscow Spark

Алексей

Выше писали, что смотрит: https://t.me/moscowspark/13830 и пытается запустить таск рядом, и будет запущено в другом месте, если время старта превысило spark.locality.wait

iKaleeninskii in Moscow Spark

спарк хитрый, знает, на каких хостах лежат исходные файлы, и на них же распределяет таски

Почитал, спасибо)

источник

13:14пожаловаться #12

AD

Alexander Dorofeev in Moscow Spark

Евгений Глотов

Попробуй вот это собрать и подкинуть в джарки:
https://github.com/devopsprodigy/spark-greenplum-connector

GitHub

devopsprodigy/spark-greenplum-connector

DevOpsProdigy Spark Greenplum Connector. Contribute to devopsprodigy/spark-greenplum-connector development by creating an account on GitHub.