Size: a a a

RL reading group

2019 June 21

SS

Sergey Slotin in RL reading group
Как и участников.
источник

I

Ilya S. in RL reading group
Slack, тоже
источник

I

Ilya S. in RL reading group
tatwhaf
дискорд бажный и требует бесконечно размечать гуглу датасет при попытке войти
Только для очень подозрительных личностей 😂🤣😂🤣
источник

IK

Ivan Kapranov in RL reading group
tatwhaf
дискорд бажный и требует бесконечно размечать гуглу датасет при попытке войти
Воу, ни разу не встречал.
источник

GZ

Grigory Z in RL reading group
Фильтрует раков, вероятно (Но это не точно)
источник

P

Pavel Shvechikov in RL reading group
Кто знает / занимался RL в контексте neural architectureal search, что сейчас SOTA?
источник

I

Ilya S. in RL reading group
Pavel Shvechikov
Кто знает / занимался RL в контексте neural architectureal search, что сейчас SOTA?
источник
2019 June 23

EZ

Evgenii Zheltonozhsk... in RL reading group
Pavel Shvechikov
Кто знает / занимался RL в контексте neural architectureal search, что сейчас SOTA?
Вроде amoebanet так и остается?
источник
2019 June 27

I

Ilya S. in RL reading group
Pavel Shvechikov
Кто знает / занимался RL в контексте neural architectureal search, что сейчас SOTA?
“Introduction to Neural Architecture Search (Reinforcement Learning approach)” by SmartLab AI https://link.medium.com/qAVjjXlnQX
источник
2019 June 29

SK

Sergey Kolesnikov in RL reading group
чат, неловкий вопрос, вот есть вроде прикольная статья https://arxiv.org/abs/1606.03476
с гребанутым количеством матана и пруфами
концептуально же, как я понял, все сводится к тому, что "давайте добавим сетку дискриминатор, которая будет отличать наши траектории от экспертных - задача обдурить дискриминатор", that's it, немного GAN-like
собственно, а в куче матана есть что-то полезное, или это просто чтобы на конфу приняли?
пока прочитал быстро и хочу понять надо ли вообще глубоко там копать
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Sergey Kolesnikov
чат, неловкий вопрос, вот есть вроде прикольная статья https://arxiv.org/abs/1606.03476
с гребанутым количеством матана и пруфами
концептуально же, как я понял, все сводится к тому, что "давайте добавим сетку дискриминатор, которая будет отличать наши траектории от экспертных - задача обдурить дискриминатор", that's it, немного GAN-like
собственно, а в куче матана есть что-то полезное, или это просто чтобы на конфу приняли?
пока прочитал быстро и хочу понять надо ли вообще глубоко там копать
Не читая статью вангую что второй вариант
источник

📒

📒 in RL reading group
Sergey Kolesnikov
чат, неловкий вопрос, вот есть вроде прикольная статья https://arxiv.org/abs/1606.03476
с гребанутым количеством матана и пруфами
концептуально же, как я понял, все сводится к тому, что "давайте добавим сетку дискриминатор, которая будет отличать наши траектории от экспертных - задача обдурить дискриминатор", that's it, немного GAN-like
собственно, а в куче матана есть что-то полезное, или это просто чтобы на конфу приняли?
пока прочитал быстро и хочу понять надо ли вообще глубоко там копать
статью не читал, но юзаю GAIL постоянно
источник

P

Pavel Shvechikov in RL reading group
Sergey Kolesnikov
чат, неловкий вопрос, вот есть вроде прикольная статья https://arxiv.org/abs/1606.03476
с гребанутым количеством матана и пруфами
концептуально же, как я понял, все сводится к тому, что "давайте добавим сетку дискриминатор, которая будет отличать наши траектории от экспертных - задача обдурить дискриминатор", that's it, немного GAN-like
собственно, а в куче матана есть что-то полезное, или это просто чтобы на конфу приняли?
пока прочитал быстро и хочу понять надо ли вообще глубоко там копать
Не имеет смысла углубляться в матан. Он достаточно экзотичный.
источник

SK

Sergey Kolesnikov in RL reading group
далее, есть еще одна статья в Imitation Learning - DeepMimic (` https://xbpeng.github.io/projects/DeepMimic/2018_TOG_DeepMimic.pdf `)
однако, правильно ли я понимаю, что никакого Imitation Learning там вообще нет, а ребята просто обучили PPO в новой крутой среде разным крутым таскам?
источник

SK

Sergey Kolesnikov in RL reading group
📒
статью не читал, но юзаю GAIL постоянно
идея GAIL и обучения дискриминатора на отличие реальных данных от синтетических - вообще топ, сам такое пользую, когда около-синтетикой работаю.... просто удивляюсь, что можно столько воды налить
источник

📒

📒 in RL reading group
Sergey Kolesnikov
идея GAIL и обучения дискриминатора на отличие реальных данных от синтетических - вообще топ, сам такое пользую, когда около-синтетикой работаю.... просто удивляюсь, что можно столько воды налить
оо интересно, у тебя демонстрации синтетические? то есть какая та не RL-based политика генерит дату, а потом на них дообучаешь RL?
источник

SK

Sergey Kolesnikov in RL reading group
ну и контрольная, https://arxiv.org/abs/1810.05017 , от DeepMind
ребятки взяли typical off-policy D4PG и засунули траектории, которые они имитировать в ReplayBuffer (D4PG при это тоже их генерил) +
- здоровенную CNN сетку на 26kk веос
- предиктили next observation аки goal state
заварили это пока не сошлось

а потом на изи повторили новые похожие траектории, которые никогда раньше не видели?
или были еще какие-то инсайты?
источник

SK

Sergey Kolesnikov in RL reading group
📒
оо интересно, у тебя демонстрации синтетические? то есть какая та не RL-based политика генерит дату, а потом на них дообучаешь RL?
я там не в RL делаю :good-enough:
источник
2019 June 30

SK

Sergey Kolesnikov in RL reading group
чат, а какие сейчас стандартные среды для тестирования подходов в POMDP?
источник

S

Shmuma in RL reading group
KungFu? В MiniWOB еще несколько сред где pomdp
источник