Телеграмм чат группы moscowspark страница 80

Size: a a a

Moscow Spark

2018 December 20

from pyspark.sql import functions as F

a = showcase_join_hash.select('union_subject_uuid', F.struct(['name', 'patronymic', 'num', 'id', 'hash']).alias('main_info'))

источник

21:54пожаловаться #1

Sultanmurad Abduev in Moscow Spark

Обычный dataframe

источник

22:05пожаловаться #2

Sultanmurad Abduev in Moscow Spark

6 стб, все строкового типа

источник

22:05пожаловаться #3

2018 December 23

Anton Alekseev in Moscow Spark

Подскажите пожалуйста как задебажить в чем проблема. Есть фрейм DF1 (User, features), на котором провожу группировку по столбцу User, столбец же features аггрегирую в вектор, получим Фрейм RS1. После этого делаю группировку с фреймом DF1 по той же колонке User, но уже аггрегирую в статистики (min, max, skewness и т.д.) после чего VectorAssembler этих статистик в новую колонку features, получаю RS2. Так вот после окончания формирования каждого фрейма я их кэширую и насильно запускаю вычисления через count. Вопрос в результате получаю закешированные посчитанные фреймы RS1 и RS2, но при каждом новом подсчете count RS1 исполняется ms, RS2 же считается 15 секунд. Как задебажить почему такие задержки? В spark UI таска по подсчету каунтов на RS2 занимает пару секунд, но она не появляется в течении секунд 12ти. Тоесть получаем что считается то быстро, но задача долго формируется, подскажите куда заглянуть чтобы понять, почему так долго формируется таска?

источник

15:09пожаловаться #4

Anton Alekseev in Moscow Spark

RS1 num of part = 10, RS2 num of part = 20. coalesce к меньшему числу партиций не приводит к уменьшению времени.

источник

15:13пожаловаться #5

Andrey Smirnov in Moscow Spark

Смотри план, есть мнение что count для датафрейма не всегда будет вызывать вычисления, catalyst может их не форсить

источник

17:08пожаловаться #6

Anton Alekseev in Moscow Spark

Andrey Smirnov

Смотри план, есть мнение что count для датафрейма не всегда будет вызывать вычисления, catalyst может их не форсить

Сорри за нубо вопрос, план - это типа dag схема для таски? Граф вычислений?

источник

17:17пожаловаться #7

Andrey Smirnov in Moscow Spark

Да, есть логический план и физический.

источник

17:17пожаловаться #8

Andrey Smirnov in Moscow Spark

http://apache-spark-developers-list.1001551.n3.nabble.com/Will-count-always-trigger-an-evaluation-of-each-row-td21018.html#a21019

Nabble

Apache Spark Developers List - Will .count() always trigger an evaluation of each row?

Will .count() always trigger an evaluation of each row?. Especially during development, people often use .count() or .persist().count() to force evaluation of all rows — exposing any problems, e.g....

источник

17:25пожаловаться #9

Anton Alekseev in Moscow Spark

Andrey Smirnov

Да, есть логический план и физический.

Да, физ план даже после кэша с каунтом представляет лупшу из действий (В RS1 пару чтений из памяти). Попробовал как по ссылке что вы скинули, таже петрушка

df.createOrReplaceTempView("df") 
spark.sql("CACHE TABLE df") 
df = spark.table("df")

источник

17:43пожаловаться #10

Andrey Smirnov in Moscow Spark

.rdd.count попробуй

источник

17:44пожаловаться #11

Andrey Smirnov in Moscow Spark

Я часто в таких случаях пишу в временную директорию, потом считываю, метод наверное колхозный, но такая линеризация часто помогает

источник

17:46пожаловаться #12

Anton Alekseev in Moscow Spark

Andrey Smirnov

.rdd.count попробуй

одна секунда о_О

источник

17:47пожаловаться #13

Anton Alekseev in Moscow Spark

ну тоесть нормально

источник

17:47пожаловаться #14

Anton Alekseev in Moscow Spark

Andrey Smirnov

Ну такой метод примерно описывается по той ссылке что вы дали

источник

17:47пожаловаться #15

Anton Alekseev in Moscow Spark

все понял, щас попробую

источник

17:48пожаловаться #16

Andrey Smirnov in Moscow Spark

Нет, если ты его записал на диск, то count уже не нужен

источник

17:48пожаловаться #17

Anton Alekseev in Moscow Spark

Andrey Smirnov

Нет, если ты его записал на диск, то count уже не нужен

ок

источник

17:49пожаловаться #18

Anton Alekseev in Moscow Spark

Andrey Smirnov

Нет, если ты его записал на диск, то count уже не нужен

Странно, пока я не прочитал из сохранённого паркета ничего не менялось.

источник

18:01пожаловаться #19

Anton Alekseev in Moscow Spark

были теже 15 секунд, он хоть и сфлашил на диск, план оставался огромный

источник

18:02пожаловаться #20