Size: a a a

RL reading group

2018 April 03

SI

Sergey Ivanov in RL reading group
Вот здесь было что-то похожее:
https://www.codingame.com/leaderboards/challenge/hypersonic/global
и вроде как в основном ручными эвристиками все и пользуются.
источник

VY

Viktor Yanush in RL reading group
Если там одна эпоха, то ему даже не пришлось ничего хранить. Пропустили батч и выбросили
источник

📒

📒 in RL reading group
Viktor Yanush
Если там одна эпоха, то ему даже не пришлось ничего хранить. Пропустили батч и выбросили
это понятно, но на практике если подбирать разные модели автоинкодеров, то легче хранить, интересно сможет ли vq-vae вместе с mixture density rnn выучиться тоже
источник

VY

Viktor Yanush in RL reading group
📒
это понятно, но на практике если подбирать разные модели автоинкодеров, то легче хранить, интересно сможет ли vq-vae вместе с mixture density rnn выучиться тоже
согласен
источник
2018 April 04

c

cydoroga in RL reading group
В этот четверг на семинаре выступит Алексей Гринчук
Начало в 19:00, аудитория Стенфорд, ШАД.

Не забудьте зарегистрироваться по ссылке до сегодняшней ночи , если хотите прийти:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

На семинаре будет разбираться статья про Soft Actor-Critic: https://arxiv.org/abs/1801.01290

Статья является follow upом одной из самых трендовых тем 2017 года по reinforcement learning, так называемой maximum entropy objective (это когда в награды добавляется добавка в виде энтропии политики) и различными “soft” методами, на ней основанными. В ходе семинара планируется:
1) Освежить знания по maximum entropy objective, теме, которую мы разбирали в несколько более общем виде в конце прошлого и начале этого года.
2) Разобраться с теоретическим обоснованием метода, изложенного в статье, после чего сделать переход от теории к практике.
3) Поглазеть на красивые графики, где новый метод всех побеждает и позиционирует себя новым state-of-the-art. Что интересно, также утверждается, что метод “is very stable, achieving very similar performance across different random seeds”, что для алгоритмов обучения с подкреплением большая редкость.

Приходите, будет интересно!
источник

SK

Sergey Kolesnikov in RL reading group
чат и особенно @dudevil
я решил взять себя в руки и начать документировать наши семинары еще и заметками, чтобы потом расространять RL через ODS каналы (*смех доктора-зло*)
пока вот решил вспомнить Reproducible RL и немного набросал, прошу кинуть камень, если что не так
https://github.com/Scitator/papers/blob/master/papers/1708_reproducible_rl.md
@dudevil даешь право на редирект на тебя аки article reviewer'а?
источник

SO

Sergey Ovcharenko in RL reading group
Конечно 👍
источник

SO

Sergey Ovcharenko in RL reading group
Завтра почитаю
источник
2018 April 05

SK

Sergey Kolesnikov in RL reading group
@cydoroga , now it's your turn
https://github.com/Scitator/papers/blob/master/papers/1802_me_trpo.md
куда можно на тебя редиректнуть как ревьюера?

из вопросов: авторы говорят, что перестают обучаться, когда более 70% симуляций с новой политикой - лучше старой....они это используют при обучении политик в псевдо-средах, или на реальной?

(если кто научит меня вставлять картинки в MD, чтобы их не разрывало - буду благодарен)
источник

c

cydoroga in RL reading group
Sergey Kolesnikov
@cydoroga , now it's your turn
https://github.com/Scitator/papers/blob/master/papers/1802_me_trpo.md
куда можно на тебя редиректнуть как ревьюера?

из вопросов: авторы говорят, что перестают обучаться, когда более 70% симуляций с новой политикой - лучше старой....они это используют при обучении политик в псевдо-средах, или на реальной?

(если кто научит меня вставлять картинки в MD, чтобы их не разрывало - буду благодарен)
Гууд
Мыло ж нужно?
tpg.cydoroga@gmail.com
На вопрос чуть позже отвечу
источник

AG

Aleksey Grinchuk in RL reading group
источник

AP

Anton Pechenko in RL reading group
источник

AP

Anton Pechenko in RL reading group
источник

AP

Anton Pechenko in RL reading group
Видео, видно/слышно?
источник

N

Nikki in RL reading group
Да, все супер!
источник

SK

Sergey Kolesnikov in RL reading group
источник
2018 April 06

SO

Sergey Ovcharenko in RL reading group
Sergey Kolesnikov
чат и особенно @dudevil
я решил взять себя в руки и начать документировать наши семинары еще и заметками, чтобы потом расространять RL через ODS каналы (*смех доктора-зло*)
пока вот решил вспомнить Reproducible RL и немного набросал, прошу кинуть камень, если что не так
https://github.com/Scitator/papers/blob/master/papers/1708_reproducible_rl.md
@dudevil даешь право на редирект на тебя аки article reviewer'а?
ты не постил пока?
я бы в notes добавил "The need for standard well-tuned baseline algorithms for RL"
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
кто-то участвует?
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
источник

KI

Karim Iskakov in RL reading group
А в записи где-то посмотреть можно?:)
источник