Телеграмм чат группы theoreticalrl страница 139

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

2019 May 03

SK

Sergey Kolesnikov in RL reading group

Pavel Shvechikov

> Catalyst.RL сейчас - это кажись первый RL framework, который нормально работает с такими нагрузками
RLlib ?

ага, контрибьютил туда
но у них нет реального Distributed Training на кучи машин...легко + не настолько resource efficient - ребятки все так хранят в RAM
ах да, там еще TF и кастомизировать - боль (кастомизировал им DDPG и друзей DDPG )
но концептуально фреймворк хороший, вдохновляюсь им

источник

11:55пожаловаться #1

P

Pavel Shvechikov in RL reading group

Sergey Kolesnikov

уже unit8
84 * 84 * 1 * 8 (bits) / 8 (b) / 1024 (kb) / 1024 (mb) / 1024 (gb) * 1M = ~7 GB
* 10M -> 70GB

Это НЕ сжатая. Обычно сжимают либо PNG codec, либо еще как то.

источник

11:56пожаловаться #2

P

Pavel Shvechikov in RL reading group

image_2019-05-03_11-56-34.png

источник

11:56пожаловаться #3

SK

Sergey Kolesnikov in RL reading group

оки, можно сжимать (собсвенно так в DB все и храню), но вечно сжимать-разжимать, когда сэмплишь из ReplayBuffer - насколько сильно замедляет все дело?

источник

11:57пожаловаться #4

P

Pavel Shvechikov in RL reading group

Я мерял в районе 15microsec на картинку на сжатие / разжатие.
Можно уменьшить, сжимая / разжимая сразу несколько, еще уменьшит время.
Если в конструкции несколько процессов, деградация не заметна (at least in our use cases).

источник

12:01пожаловаться #5

SK

Sergey Kolesnikov in RL reading group

🤔, текущее сжатие уже ужимает на ~100x, и 400Mb/s на сжатие, 700Mb/s на расжатие... может и не сожрет много времени...

источник

12:01пожаловаться #6

SK

Sergey Kolesnikov in RL reading group

@ipaulo а Prioretized Exp Replay с сжатием-расжатием - нормально работает? пробовал?

источник

12:03пожаловаться #7

P

Pavel Shvechikov in RL reading group

Приоретизацию не трогал.
Думаю, что с минимальным префетчингом в фоне можно сделать быстро.
У нас просто специфика чуть другая, нам нужны не переходы, а куски траекторий, они очень эффективно компресятся.

источник

12:07пожаловаться #8

AG

Aleksey Grinchuk in RL reading group

Кстати, есть ли те кому приоритизация принесла значительный буст? У меня лично о ней сейчас такое мнение сложилось:
1. Когда все учились с одним сэмплером и хорошие сэмплы были на вес золота, она работала лучше обычных методов. Сейчас, когда мы запускаем десятки/сотни параллельных агентов, профита от неё не так уж и много.
2. Приоритизация может вносить нестабильность, что было замечено в ряде последних статей где анализируют расходимость всяких off-policy вещей.

В общем, кажется, что более простые и масштабируемые системы (к чему, например, движется OpenAI), лучше и надёжнее.

источник

21:09пожаловаться #9

2019 May 04

SK

Sergey Kolesnikov in RL reading group

ну, раньше так хорошо не параллелили все это дело, чтобы и samplers & trainer работали эффективно
по моим экспериментам - профита мало, ибо скорость падает па порядок, ведь обновление priority index - штука затратная, становится bottlneck и хороший parallel справляется лучше

btw, а какие статьи, где приоритезация привнесла нестабильность?

источник

10:13пожаловаться #10

SK

Sergey Kolesnikov in RL reading group

FYI, проверил идею с компрессингом-декомпрессингом траекторий и хранением всего в сжатом виде в RAM
короче говоря, скорость обновления упала в 5 раз, а RAM usage подскочил до 30GB :pepe-sad:
короче говоря, нифига не эффективно при обучении на transitions такое шмалять
но задумка была интересная

источник

10:15пожаловаться #11

A

Alexander O in RL reading group

Sergey Kolesnikov

FYI, проверил идею с компрессингом-декомпрессингом траекторий и хранением всего в сжатом виде в RAM
короче говоря, скорость обновления упала в 5 раз, а RAM usage подскочил до 30GB :pepe-sad:
короче говоря, нифига не эффективно при обучении на transitions такое шмалять
но задумка была интересная

А много алгоритмов архивирования пробовал? Там просто как медленные бывают, так и более-менее быстрые

источник

11:48пожаловаться #12

SK

Sergey Kolesnikov in RL reading group

дык, не алгоритмы компрессятся, а траектории
аля 1000 observations...ужимаются и вправду в 50/100 раз
но читать их для обучения выходит очень неэффективно

источник

11:58пожаловаться #13

VA

Vladimir Aliev in RL reading group

Sergey Kolesnikov

дык, не алгоритмы компрессятся, а траектории
аля 1000 observations...ужимаются и вправду в 50/100 раз
но читать их для обучения выходит очень неэффективно

Вопрос здесь скорее про алгоритм сжатия картинок)

источник

11:59пожаловаться #14

SK

Sergey Kolesnikov in RL reading group

оу, lz4+pyarrow
самая эффективная связка на текущую момент

источник

12:01пожаловаться #15

SK

Sergey Kolesnikov in RL reading group

Sergey Kolesnikov

🤔, текущее сжатие уже ужимает на ~100x, и 400Mb/s на сжатие, 700Mb/s на расжатие... может и не сожрет много времени...

про скорость

источник

12:01пожаловаться #16

AG

Aleksey Grinchuk in RL reading group

Sergey Kolesnikov

ну, раньше так хорошо не параллелили все это дело, чтобы и samplers & trainer работали эффективно
по моим экспериментам - профита мало, ибо скорость падает па порядок, ведь обновление priority index - штука затратная, становится bottlneck и хороший parallel справляется лучше

btw, а какие статьи, где приоритезация привнесла нестабильность?

https://arxiv.org/abs/1812.02648
https://arxiv.org/abs/1902.10250

источник

18:47пожаловаться #17

2019 May 09

VK

Vlad Kurenkov in RL reading group

Кто-то разбирал уже?

источник

13:30пожаловаться #18

VK

Vlad Kurenkov in RL reading group

Переслано от Pavel Shvechikov

SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
https://arxiv.org/abs/1712.10285

источник

13:30пожаловаться #19

VA

Vladimir Aliev in RL reading group

Переслано от Pavel Shvechikov

SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
https://arxiv.org/abs/1712.10285

Пробовали завести, но чет особо не поехало

источник

14:07пожаловаться #20