Телеграмм чат группы moscowspark страница 331

2020 May 11

OI

org.apache.spark.mllib.linalg.SingularValueDecomposition[org.apache.spark.mllib.linalg.distributed.RowMatrix,org.apache.spark.mllib.linalg.Matrix]
видимо rdd

Но судя по доке, это не RDD. Но из него можно вектор RDD вытащить

источник

18:31пожаловаться #1

OI

Oleg Ivchenko in Moscow Spark

https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/mllib/linalg/distributed/RowMatrix.html#rows--

источник

18:31пожаловаться #2

PK

Pavel Klemenkov in Moscow Spark

Oleg Ivchenko

Если RDD, то просто persist() со StorageLevel DISK_ONLY.

Persist в директорию контейнера запишет и ярн ей подчистит по окончанию джобы

источник

18:33пожаловаться #3

AS

Andrey Smirnov in Moscow Spark

да там не rdd-же

источник

18:33пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Результат svd - это три спарснутых матрицы, их поколлектить можно

источник

18:35пожаловаться #5

AS

Andrey Smirnov in Moscow Spark

Oleg Ivchenko

Но судя по доке, это не RDD. Но из него можно вектор RDD вытащить

тащить отдельно все 3 компонента, сохранять отдельно?
а как обратно?

источник

18:35пожаловаться #6

AS

Andrey Smirnov in Moscow Spark

ага, обратно есть конструктор, как-то не додумали товарищи

источник

18:37пожаловаться #7

OI

Oleg Ivchenko in Moscow Spark

Pavel Klemenkov

Persist в директорию контейнера запишет и ярн ей подчистит по окончанию джобы

Да.... тогда похоже только collect(). Или global permanent view создать.

источник

18:37пожаловаться #8

AS

Andrey Smirnov in Moscow Spark

видимо придется через collect и надеяться что на драйвере хватит памяти, с другой стороны она же посчиталась

источник

18:41пожаловаться #9

2020 May 12

JF

Jane Frankenstein in Moscow Spark

привет всем, посоветуйте, пожалуйста, можно ли обойтись вообще без удаления. Ситуация следующая: нужно копировать данные с нашего с3 в клиентский каждый час как можно быстрее, однако клиент против того, чтобы давать нашему авс пользователю права на удаление (нужно без использования Delete Request), но Спарк создает _temporary во время работы даже, если просечено fileoutputcommitter.algorithm.version 2 + к тому же я использую сервис очистки: перед запуском джобы стартую процесс клининга "папок" без _SUCCESS файла. Опять таки дилит. Заранее благодарю за помощь.

источник

15:46пожаловаться #10

M

Mi in Moscow Spark

Jane Frankenstein

привет всем, посоветуйте, пожалуйста, можно ли обойтись вообще без удаления. Ситуация следующая: нужно копировать данные с нашего с3 в клиентский каждый час как можно быстрее, однако клиент против того, чтобы давать нашему авс пользователю права на удаление (нужно без использования Delete Request), но Спарк создает _temporary во время работы даже, если просечено fileoutputcommitter.algorithm.version 2 + к тому же я использую сервис очистки: перед запуском джобы стартую процесс клининга "папок" без _SUCCESS файла. Опять таки дилит. Заранее благодарю за помощь.

а спарк где запускается?

источник

15:55пожаловаться #11

M

Mi in Moscow Spark

EMR?

источник

15:55пожаловаться #12

JF

Jane Frankenstein in Moscow Spark

не-а, на YARN

источник