Size: a a a

RL reading group

2019 February 07

OV

Oleg Vasilev in RL reading group
Shmuma
Уже полгода как собираюсь автоматизировать эту несчастную форму и повесить на крон :)
При помощи RL? :)
источник

S

Shmuma in RL reading group
Да, это интересная мысль :)
источник

c

cydoroga in RL reading group
Shmuma
Уже полгода как собираюсь автоматизировать эту несчастную форму и повесить на крон :)
Можно устроить рассылку на почту конечно
С инвайтом
Так даже в календарик добавится
Но не уверен, что это удобнее.
источник

IK

Ivan Kharitonov in RL reading group
Привет! А сегодня будет запись или трансляция?
источник

MY

Misha Yagudin in RL reading group
Видимо, нет.
источник
2019 February 10

A

Alexander O in RL reading group
14 будет что-нибудь?
источник

c

cydoroga in RL reading group
Всем привет!

ВНИМАНИЕ!
14го числа семинара не будет!
По результатам проведенного голосования
источник

AG

Aleksey Grinchuk in RL reading group
На тему AlphaGo и шахмат. После выхода статьи появилась Leela Chess Zero — open source community версия, написанная на плюсах, где каждый может донатить свои вычислительные ресурсы для счёта. За прошлый год она хорошо обучилась и выиграла чемпионат мира среди chess engines. Сейчас идёт суперфинал live match на 100 игр между LC0 и болеее сильной версией Stockfish (чем та которая участвовала в чемпионате). Он будет идти ещё несколько суток, но кому интересно, можно смотреть тут:
https://tcec.chessdom.com/live.html

Примечательно, что LC0 обсчитываеет ходы медленнее Stockfish (т.к. он разрабатываеется уже кучу лет и дико оптимизирован), имеет меньшую глубину просчёта и вообще чтоб сделать ход считает на 2-3 порядка меньше досок. Пока идут на равных: 16.5 — 16.5.
источник

П

Пётр in RL reading group
Так же энтузиасты из Гугла пишут OSS реализацию AlphaGo Zero: https://github.com/tensorflow/minigo
источник

G

Gabriel in RL reading group
На github'е лежит alphazero-general, о котором заявлено, что он может играть в любую настольную игру, коль скоро она правильно описана
источник

G

Gabriel in RL reading group
источник

G

Gabriel in RL reading group
В othello (реверси) эта версия, по-моему, играет хорошо
источник
2019 February 20

c

cydoroga in RL reading group
Всем привет!

На этой неделе на семинаре выступит Михаил Ягудин.
Четверг, ШАД
Аудитория: Стенфорд
19:00

Soft Actor Critic — model-free off-policy актор-критик алгоритм, регуляризируеммый энтропией. Алгоритм побил несколько СОТ в непрерывном пространстве действий [DDPG и PPO на Humanoid]. Стабильное и быстрое обучение, небольшое число гипер-параметров и возможность переиспользовать предыдущие наблюдения делают его пригодным для робототехники.

https://arxiv.org/abs/1801.01290
https://openreview.net/forum?id=HJjvxl-Cb
https://bair.berkeley.edu/blog/2018/12/14/sac/
https://ai.googleblog.com/2019/01/soft-actor-critic-deep-reinforcement.html
https://github.com/rail-berkeley/softlearning

Приходите, будет интересно!
источник

c

cydoroga in RL reading group
Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до 10ти часов утра четверга:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform
источник

AP

Anton Pechenko in RL reading group
@rl_agent про него несколько раз очень годно рассказывал. На этот раз будет более свежая версия алгоритма?
источник

AG

Aleksey Grinchuk in RL reading group
Кстати, недавно вышел PhD thesis автора SAC:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.pdf

Однако, меня в нём напрягают очень уж различающиеся графики одних и тех же алгоритмов в разных местах тезиса. Например, performance DDPG на странице 33 и на странице 42.
источник

AG

Aleksey Grinchuk in RL reading group
источник

AG

Aleksey Grinchuk in RL reading group
источник

MY

Misha Yagudin in RL reading group
Да, следовало посикать по чату. У Беркли есть свежая статья на архиве, но она не очень сильно отличается.

- - - - - - -

Тогда я расскажу про Deep RL from Human Preferences (https://arxiv.org/abs/1706.03741). Это довльно необычная работа в которой вместо наград используют оценки людей [«какая из траекторий лучше?»].
источник

П

Пётр in RL reading group
Кому-то интересно послушать про Go-Explore?
источник