Size: a a a

2020 May 11

OI

Oleg Ivchenko in Moscow Spark
Andrey Smirnov
org.apache.spark.mllib.linalg.SingularValueDecomposition[org.apache.spark.mllib.linalg.distributed.RowMatrix,org.apache.spark.mllib.linalg.Matrix]
видимо rdd
Но судя по доке, это не RDD. Но из него можно вектор RDD вытащить
источник

OI

Oleg Ivchenko in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Oleg Ivchenko
Если RDD, то просто persist() со StorageLevel DISK_ONLY.
Persist в директорию контейнера запишет и ярн ей подчистит по окончанию джобы
источник

AS

Andrey Smirnov in Moscow Spark
да там не rdd-же
источник

PK

Pavel Klemenkov in Moscow Spark
Результат svd - это три спарснутых матрицы, их поколлектить можно
источник

AS

Andrey Smirnov in Moscow Spark
Oleg Ivchenko
Но судя по доке, это не RDD. Но из него можно вектор RDD вытащить
тащить отдельно все 3 компонента, сохранять отдельно?
а как обратно?
источник

AS

Andrey Smirnov in Moscow Spark
ага, обратно есть конструктор, как-то не додумали товарищи
источник

OI

Oleg Ivchenko in Moscow Spark
Pavel Klemenkov
Persist в директорию контейнера запишет и ярн ей подчистит по окончанию джобы
Да.... тогда похоже только collect(). Или global permanent view создать.
источник

AS

Andrey Smirnov in Moscow Spark
видимо придется через collect  и надеяться что на драйвере хватит памяти, с другой стороны она же посчиталась
источник
2020 May 12

JF

Jane Frankenstein in Moscow Spark
привет всем, посоветуйте, пожалуйста, можно ли обойтись вообще без удаления. Ситуация следующая: нужно копировать данные с нашего с3 в клиентский каждый час как можно быстрее, однако клиент против того, чтобы давать нашему авс пользователю права на удаление (нужно без использования Delete Request), но Спарк создает _temporary во время работы даже, если просечено fileoutputcommitter.algorithm.version 2 + к тому же я использую сервис очистки: перед запуском джобы стартую процесс клининга "папок" без _SUCCESS файла. Опять таки дилит. Заранее благодарю за помощь.
источник

M

Mi in Moscow Spark
Jane Frankenstein
привет всем, посоветуйте, пожалуйста, можно ли обойтись вообще без удаления. Ситуация следующая: нужно копировать данные с нашего с3 в клиентский каждый час как можно быстрее, однако клиент против того, чтобы давать нашему авс пользователю права на удаление (нужно без использования Delete Request), но Спарк создает _temporary во время работы даже, если просечено fileoutputcommitter.algorithm.version 2 + к тому же я использую сервис очистки: перед запуском джобы стартую процесс клининга "папок" без _SUCCESS файла. Опять таки дилит. Заранее благодарю за помощь.
а спарк где запускается?
источник

M

Mi in Moscow Spark
EMR?
источник

JF

Jane Frankenstein in Moscow Spark
не-а, на YARN
источник

MV

Mitya Volodin in Moscow Spark
А если на уровне фс копировать? 🙂
источник

M

Mi in Moscow Spark
Jane Frankenstein
не-а, на YARN
так YARN тоже где-то крутится, если есть ярн, то есть и HDFS
источник

M

Mi in Moscow Spark
сохраняйте туда, потом копируйте на S3
источник

JF

Jane Frankenstein in Moscow Spark
боюсь, что получится сильно дорого, так как мы используем споты + копируме терабайты данных. Сейчас думаю использовать distcp как вариант.
источник

AS

Andrey Smirnov in Moscow Spark
Jane Frankenstein
боюсь, что получится сильно дорого, так как мы используем споты + копируме терабайты данных. Сейчас думаю использовать distcp как вариант.
мне казалось что distcp тоже создает временные файлы
источник

M

Mi in Moscow Spark
Jane Frankenstein
боюсь, что получится сильно дорого, так как мы используем споты + копируме терабайты данных. Сейчас думаю использовать distcp как вариант.
мы вроде так делаем, и данных  тоже не так мало) как минимум это решает проблему  удалений и достаточно эффективно
источник

M

Mi in Moscow Spark
core инстансы у вас тоже есть наверняка
источник