Телеграмм чат группы moscowspark страница 570

всем привет!
а никто не сталкивался с такой задачей
есть mapPartitions которая выполняется для допустим 100 партиций
и некоторые партиции выполняются слишком долго
хотелось бы поставить таймаут допустим 30 секунд
если выполняется дольше то просто делается return из этого mapPartitions и ничего не
возвращается

возвращаем только из тех партиций которые успели расчитаться в 30 секунд
как идея - можно создавать внутри mapPartitions sub-тред и средствами питона ограничивать время его выполнения / убивать его сигналом или еще как то

возможно ли такое сделать в спарке?

источник

10:33пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

всем привет!
а никто не сталкивался с такой задачей
есть mapPartitions которая выполняется для допустим 100 партиций
и некоторые партиции выполняются слишком долго
хотелось бы поставить таймаут допустим 30 секунд
если выполняется дольше то просто делается return из этого mapPartitions и ничего не
возвращается

возвращаем только из тех партиций которые успели расчитаться в 30 секунд
как идея - можно создавать внутри mapPartitions sub-тред и средствами питона ограничивать время его выполнения / убивать его сигналом или еще как то

возможно ли такое сделать в спарке?

Советую рискнуть и воспользоваться spark.sql.broadcastTimeout, но совершенно не факт, что сработает
Ну, или передавать в mapPartitions функцию, которая уже получила нужный дюрейшен (Duration) и сама остановит итерации по своему таймауту. В скале делается относительно легко, в пайтоне ничего не порекомендую

источник

11:28пожаловаться #17

AS

Andrey Smirnov in Moscow Spark

Иван Калининский

Коллеги, как можно получить InternalRow из некоторых значений, которые есть в Row? Просто создать InternalRow.fromSeq(field_names.map(f => row.getAs[Any](f))) вызывает через некоторое время исключение
java.lang.ClassCastException: java.lang.String cannot be cast to org.apache.spark.unsafe.types.UTF8String
at org.apache.spark.sql.catalyst.expressions.BaseGenericInternalRow$class.getUTF8String(rows.scala:46)

Вообще, есть где-нибудь годное описание InternalRow, как создать, как менять, как сделать клёво)) ? В ближайшее время буду очень много с ним работать

а где ты работаешь (если не секрет), что нужны знания таких внутренностей спарка (это я завидую)?

источник

11:35пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Чувствую ответ "просто я говна нажрался"

источник

11:36пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

я в банке работаю))
Но тут все где-то работают, и у многих есть весьма глубокие знания внутренностей спарка, так что конкретно место работы не так уж существенно

источник

11:37пожаловаться #20