Телеграмм чат группы theoreticalrl страница 130

На тему AlphaGo и шахмат. После выхода статьи появилась Leela Chess Zero — open source community версия, написанная на плюсах, где каждый может донатить свои вычислительные ресурсы для счёта. За прошлый год она хорошо обучилась и выиграла чемпионат мира среди chess engines. Сейчас идёт суперфинал live match на 100 игр между LC0 и болеее сильной версией Stockfish (чем та которая участвовала в чемпионате). Он будет идти ещё несколько суток, но кому интересно, можно смотреть тут:
https://tcec.chessdom.com/live.html

Примечательно, что LC0 обсчитываеет ходы медленнее Stockfish (т.к. он разрабатываеется уже кучу лет и дико оптимизирован), имеет меньшую глубину просчёта и вообще чтоб сделать ход считает на 2-3 порядка меньше досок. Пока идут на равных: 16.5 — 16.5.

источник

20:08пожаловаться #8

Пётр in RL reading group

Так же энтузиасты из Гугла пишут OSS реализацию AlphaGo Zero: https://github.com/tensorflow/minigo

GitHub

tensorflow/minigo

An open-source implementation of the AlphaGoZero algorithm - tensorflow/minigo

источник

20:10пожаловаться #9

Gabriel in RL reading group

На github'е лежит alphazero-general, о котором заявлено, что он может играть в любую настольную игру, коль скоро она правильно описана

источник

20:14пожаловаться #10

Gabriel in RL reading group

https://github.com/suragnair/alpha-zero-general

GitHub

suragnair/alpha-zero-general

A clean implementation based on AlphaZero for any game in any framework + tutorial + Othello/Gobang/TicTacToe/Connect4 and more - suragnair/alpha-zero-general

источник

20:15пожаловаться #11

Gabriel in RL reading group

В othello (реверси) эта версия, по-моему, играет хорошо

источник

20:16пожаловаться #12

2019 February 20

cydoroga in RL reading group

Всем привет!

На этой неделе на семинаре выступит Михаил Ягудин.
Четверг, ШАД
Аудитория: Стенфорд
19:00

Soft Actor Critic — model-free off-policy актор-критик алгоритм, регуляризируеммый энтропией. Алгоритм побил несколько СОТ в непрерывном пространстве действий [DDPG и PPO на Humanoid]. Стабильное и быстрое обучение, небольшое число гипер-параметров и возможность переиспользовать предыдущие наблюдения делают его пригодным для робототехники.

https://arxiv.org/abs/1801.01290
https://openreview.net/forum?id=HJjvxl-Cb
https://bair.berkeley.edu/blog/2018/12/14/sac/
https://ai.googleblog.com/2019/01/soft-actor-critic-deep-reinforcement.html
https://github.com/rail-berkeley/softlearning

Приходите, будет интересно!

источник

00:16пожаловаться #13

cydoroga in RL reading group

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до 10ти часов утра четверга:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

00:17пожаловаться #14

Anton Pechenko in RL reading group

@rl_agent про него несколько раз очень годно рассказывал. На этот раз будет более свежая версия алгоритма?

источник

00:20пожаловаться #15

Aleksey Grinchuk in RL reading group

Кстати, недавно вышел PhD thesis автора SAC:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.pdf

Однако, меня в нём напрягают очень уж различающиеся графики одних и тех же алгоритмов в разных местах тезиса. Например, performance DDPG на странице 33 и на странице 42.

источник

10:33пожаловаться #16

Aleksey Grinchuk in RL reading group

источник

10:33пожаловаться #17

Aleksey Grinchuk in RL reading group

источник

10:33пожаловаться #18

Misha Yagudin in RL reading group

Да, следовало посикать по чату. У Беркли есть свежая статья на архиве, но она не очень сильно отличается.

- - - - - - -

Тогда я расскажу про Deep RL from Human Preferences (https://arxiv.org/abs/1706.03741). Это довльно необычная работа в которой вместо наград используют оценки людей [«какая из траекторий лучше?»].

источник

18:41пожаловаться #19

Пётр in RL reading group

Кому-то интересно послушать про Go-Explore?

источник

19:48пожаловаться #20