Size: a a a

2021 February 19

ИК

Иван Калининский... in Moscow Spark
tenKe
поищи RowDecoder
Посмотрю
источник

ИК

Иван Калининский... in Moscow Spark
спасибо
источник

t

tenKe in Moscow Spark
он в недрах спарка
источник

ИК

Иван Калининский... in Moscow Spark
не проблема
источник

GP

Grigory Pomadchin in Moscow Spark
tenKe
поищи RowDecoder
По-моему ты уде спршвал или писал такое)
источник

t

tenKe in Moscow Spark
угу
источник

t

tenKe in Moscow Spark
в чате можно поискать
источник

t

tenKe in Moscow Spark
в итоге я помню, что у меня все получилось)
источник

GP

Grigory Pomadchin in Moscow Spark
ага
источник

GP

Grigory Pomadchin in Moscow Spark
Схему не передавал ты или чёт такое
источник

t

tenKe in Moscow Spark
не, там надо было этот декодер мутировать как то после создания
источник

t

tenKe in Moscow Spark
метод ты мне еще подсказал
источник

t

tenKe in Moscow Spark
источник

t

tenKe in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
да, я нашёл, спасибо!
источник
2021 February 20

A🦕

Alexander Rodionov 🦕... in Moscow Spark
всем привет!
а никто не сталкивался с такой задачей
есть mapPartitions которая выполняется для допустим 100 партиций
и некоторые партиции выполняются слишком долго
хотелось бы поставить таймаут допустим 30 секунд
если выполняется дольше то просто делается return из этого mapPartitions и ничего не
возвращается

возвращаем только из тех партиций которые успели расчитаться в 30 секунд
как идея - можно создавать внутри mapPartitions sub-тред и средствами питона ограничивать время его выполнения / убивать его сигналом или еще как то

возможно ли такое сделать в спарке?
источник

ИК

Иван Калининский... in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
всем привет!
а никто не сталкивался с такой задачей
есть mapPartitions которая выполняется для допустим 100 партиций
и некоторые партиции выполняются слишком долго
хотелось бы поставить таймаут допустим 30 секунд
если выполняется дольше то просто делается return из этого mapPartitions и ничего не
возвращается

возвращаем только из тех партиций которые успели расчитаться в 30 секунд
как идея - можно создавать внутри mapPartitions sub-тред и средствами питона ограничивать время его выполнения / убивать его сигналом или еще как то

возможно ли такое сделать в спарке?
Советую рискнуть и воспользоваться spark.sql.broadcastTimeout, но совершенно не факт, что сработает
Ну, или передавать в mapPartitions функцию, которая уже получила нужный дюрейшен (Duration) и сама остановит итерации по своему таймауту. В скале делается относительно легко, в пайтоне ничего не порекомендую
источник

AS

Andrey Smirnov in Moscow Spark
Иван Калининский
Коллеги, как можно получить InternalRow из некоторых значений, которые есть в Row? Просто создать InternalRow.fromSeq(field_names.map(f => row.getAs[Any](f))) вызывает через некоторое время исключение
java.lang.ClassCastException: java.lang.String cannot be cast to org.apache.spark.unsafe.types.UTF8String
at org.apache.spark.sql.catalyst.expressions.BaseGenericInternalRow$class.getUTF8String(rows.scala:46)

Вообще, есть где-нибудь годное описание InternalRow, как создать, как менять, как сделать клёво)) ? В ближайшее время буду очень много с ним работать
а где ты работаешь (если не секрет), что нужны знания таких внутренностей спарка (это я завидую)?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Чувствую ответ "просто я говна нажрался"
источник

ИК

Иван Калининский... in Moscow Spark
я в банке работаю))
Но тут все где-то работают, и у многих есть весьма глубокие знания внутренностей спарка, так что конкретно место работы не так уж существенно
источник