Size: a a a

RL reading group

2019 May 03

SK

Sergey Kolesnikov in RL reading group
Pavel Shvechikov
>  Catalyst.RL сейчас - это кажись  первый RL framework, который нормально работает с такими нагрузками
RLlib ?
ага, контрибьютил туда
но у них нет реального Distributed Training на кучи машин...легко + не настолько resource efficient - ребятки все так хранят в RAM
ах да, там еще TF и кастомизировать - боль (кастомизировал им DDPG и друзей DDPG )
но концептуально фреймворк хороший, вдохновляюсь им
источник

P

Pavel Shvechikov in RL reading group
Sergey Kolesnikov
уже unit8
84 * 84 * 1 * 8 (bits) / 8 (b) / 1024 (kb) / 1024 (mb) / 1024 (gb) * 1M = ~7 GB
* 10M -> 70GB
Это НЕ сжатая. Обычно сжимают либо PNG codec, либо еще как то.
источник

P

Pavel Shvechikov in RL reading group
источник

SK

Sergey Kolesnikov in RL reading group
оки, можно сжимать (собсвенно так в DB все и храню), но вечно сжимать-разжимать, когда сэмплишь из ReplayBuffer - насколько сильно замедляет все дело?
источник

P

Pavel Shvechikov in RL reading group
Я мерял в районе 15microsec на картинку на сжатие / разжатие.  
Можно уменьшить, сжимая / разжимая сразу несколько, еще уменьшит время.
Если в конструкции несколько процессов, деградация не заметна (at least in our use cases).
источник

SK

Sergey Kolesnikov in RL reading group
🤔, текущее сжатие уже ужимает на ~100x, и 400Mb/s на сжатие, 700Mb/s на расжатие... может и не сожрет много времени...
источник

SK

Sergey Kolesnikov in RL reading group
@ipaulo а Prioretized Exp Replay с сжатием-расжатием - нормально работает? пробовал?
источник

P

Pavel Shvechikov in RL reading group
Приоретизацию не трогал.
Думаю, что с минимальным префетчингом в фоне можно сделать быстро.
У нас просто специфика чуть другая, нам нужны не переходы, а куски траекторий, они очень эффективно компресятся.
источник

AG

Aleksey Grinchuk in RL reading group
Кстати, есть ли те кому приоритизация принесла значительный буст? У меня лично о ней сейчас такое мнение сложилось:
1. Когда все учились с одним сэмплером и хорошие сэмплы были на вес золота, она работала лучше обычных методов. Сейчас, когда мы запускаем десятки/сотни параллельных агентов, профита от неё не так уж и много.
2. Приоритизация может вносить нестабильность, что было замечено в ряде последних статей где анализируют расходимость всяких off-policy вещей.

В общем, кажется, что более простые и масштабируемые системы (к чему, например, движется OpenAI), лучше и надёжнее.
источник
2019 May 04

SK

Sergey Kolesnikov in RL reading group
ну, раньше так хорошо не параллелили все это дело, чтобы и samplers & trainer работали эффективно
по моим экспериментам - профита мало, ибо скорость падает па порядок, ведь обновление priority index - штука затратная, становится bottlneck и хороший parallel справляется лучше

btw, а какие статьи, где приоритезация привнесла нестабильность?
источник

SK

Sergey Kolesnikov in RL reading group
FYI, проверил идею с компрессингом-декомпрессингом траекторий и хранением всего в сжатом виде в RAM
короче говоря, скорость обновления упала в 5 раз, а RAM usage подскочил до 30GB :pepe-sad:
короче говоря, нифига не эффективно при обучении на transitions такое шмалять
но задумка была интересная
источник

A

Alexander O in RL reading group
Sergey Kolesnikov
FYI, проверил идею с компрессингом-декомпрессингом траекторий и хранением всего в сжатом виде в RAM
короче говоря, скорость обновления упала в 5 раз, а RAM usage подскочил до 30GB :pepe-sad:
короче говоря, нифига не эффективно при обучении на transitions такое шмалять
но задумка была интересная
А много алгоритмов архивирования пробовал? Там просто как медленные бывают, так и более-менее быстрые
источник

SK

Sergey Kolesnikov in RL reading group
дык, не алгоритмы компрессятся, а траектории
аля 1000 observations...ужимаются и вправду в 50/100 раз
но читать их для обучения выходит очень неэффективно
источник

VA

Vladimir Aliev in RL reading group
Sergey Kolesnikov
дык, не алгоритмы компрессятся, а траектории
аля 1000 observations...ужимаются и вправду в 50/100 раз
но читать их для обучения выходит очень неэффективно
Вопрос здесь скорее про алгоритм сжатия картинок)
источник

SK

Sergey Kolesnikov in RL reading group
оу, lz4+pyarrow
самая эффективная связка на текущую момент
источник

SK

Sergey Kolesnikov in RL reading group
Sergey Kolesnikov
🤔, текущее сжатие уже ужимает на ~100x, и 400Mb/s на сжатие, 700Mb/s на расжатие... может и не сожрет много времени...
про скорость
источник

AG

Aleksey Grinchuk in RL reading group
Sergey Kolesnikov
ну, раньше так хорошо не параллелили все это дело, чтобы и samplers & trainer работали эффективно
по моим экспериментам - профита мало, ибо скорость падает па порядок, ведь обновление priority index - штука затратная, становится bottlneck и хороший parallel справляется лучше

btw, а какие статьи, где приоритезация привнесла нестабильность?
источник
2019 May 09

VK

Vlad Kurenkov in RL reading group
Кто-то разбирал уже?
источник

VK

Vlad Kurenkov in RL reading group
Переслано от Pavel Shvechikov
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
https://arxiv.org/abs/1712.10285
источник

VA

Vladimir Aliev in RL reading group
Vlad Kurenkov
Переслано от Pavel Shvechikov
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
https://arxiv.org/abs/1712.10285
Пробовали завести, но чет особо не поехало
источник