Size: a a a

2020 April 20

PE

Petr Ermakov in Moscow Spark
у меня на тек момент есть спарс матрица в спарке
я хочу пробежаться по строкам и найти top 100 минимальных элементов каждой строки

если я смогу превратить спарс матрицу в rdd обычных array-ев я смогу функцией map пробежать
источник

PE

Petr Ermakov in Moscow Spark
на любые готов ответить вопросы
источник

PK

Pavel Klemenkov in Moscow Spark
Вроде у distributed матрицы есть аттрибут entries - это внутренняя RDD, состоящая из MatrixEntry, на нее уже можешь делать map
источник

PE

Petr Ermakov in Moscow Spark
да
но MatrixEntry же разреженная - фигня
источник

SS

Semyon Sinchenko in Moscow Spark
У RowMatrix ведь есть rows, который вернет RDD[Vector] строк и по ним можно пробежаться через map
источник

SS

Semyon Sinchenko in Moscow Spark
Дальше если она Sparse, то это будет RDD[SparseVector], а там есть атрибут values, в котором все активные элементы. Их сортировать и взять топ 100
источник
2020 April 21

A🦕

Alexander Rodionov 🦕... in Moscow Spark
А есть хоть какая-то разница для спарка - передавать переменную
(условную broadcast-переменнуюв в условный mapPartitions)
через аргумент или из внешнего окружения/замыкание?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
А есть хоть какая-то разница для спарка - передавать переменную
(условную broadcast-переменнуюв в условный mapPartitions)
через аргумент или из внешнего окружения/замыкание?
Конечно. Броадкаст у тебя летает по всем нодам, а локальная переменная внутри одной jVM
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Паша Финкельштейн
Конечно. Броадкаст у тебя летает по всем нодам, а локальная переменная внутри одной jVM
перефразирую - есть ли разница межу 1 и 2?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ой, пайтон
источник

N

Nikolay in Moscow Spark
Паша Финкельштейн
Конечно. Броадкаст у тебя летает по всем нодам, а локальная переменная внутри одной jVM
Это не так. Тут наверное из первых версий Спарка пришло неправильное название. Я про броадкаст.он не летает на все ноды ( экзекьюторы )
источник

RI

Rudnev Il’ya in Moscow Spark
Это смотреть в сторону того как работает jvm, stack и heap в частности
источник

AS

Andrey Smirnov in Moscow Spark
Nikolay
Это не так. Тут наверное из первых версий Спарка пришло неправильное название. Я про броадкаст.он не летает на все ноды ( экзекьюторы )
да ладно,
Spark supports two types of shared variables: broadcast variables, which can be used to cache a value in memory on all nodes,
источник

N

Nikolay in Moscow Spark
Andrey Smirnov
да ладно,
Spark supports two types of shared variables: broadcast variables, which can be used to cache a value in memory on all nodes,
А тут они и не говорят , что оно летает.
источник

N

Nikolay in Moscow Spark
Давайте я расскажу как оно работает.
источник

AS

Andrey Smirnov in Moscow Spark
Nikolay
А тут они и не говорят , что оно летает.
да, слова fly нет, расходимся
источник

N

Nikolay in Moscow Spark
Когда вы делаете broadcast, то ровным счётом ничего не происходит. Создаётся врапер на драйвере и значения никуда не летят . На экзекьюторе , когда вы используете переменную , то он ее читает с драйвера
источник

N

Nikolay in Moscow Spark
Т.е если у вас 10 нод, а вы считали на одной , то у вас будет на драйвере и одной ноде ваша броадкаст
источник

AS

Andrey Smirnov in Moscow Spark
Nikolay
Когда вы делаете broadcast, то ровным счётом ничего не происходит. Создаётся врапер на драйвере и значения никуда не летят . На экзекьюторе , когда вы используете переменную , то он ее читает с драйвера
а когда я ее читаю второй раз, то она уже на ноде, и драйвер уже не нужен
источник

N

Nikolay in Moscow Spark
Ну да . Но тут нет никакого броадкаст. Броадкаст - это рассылка на все ноды. Такого нет и в помине. Это просто неудачное название
источник