Size: a a a

RL reading group

2017 December 06

EZ

Evgenii Zheltonozhsk... in RL reading group
Deep mind применили AlphaGo Zero к шахматам и сеги
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
источник

V

Vadim in RL reading group
Wow
источник

M

Manvel in RL reading group
ODS effect ))
источник

AM

Aleksandr Mikhailov ... in RL reading group
Evgenii Zheltonozhskii🇮🇱
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
очень интересно. я не верил, что RL подход заработает в шахматах, т.к. существующие программы уже очень сильны. однако им удалось победить Stockfish и еще при этом тратить меньше времени на ход
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Aleksandr Mikhailov 😷
очень интересно. я не верил, что RL подход заработает в шахматах, т.к. существующие программы уже очень сильны. однако им удалось победить Stockfish и еще при этом тратить меньше времени на ход
ну по флопсам думаю больше вышло, но победа над stockfish впечатляет
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Еще бы книгу и эндшпильные таблицы
источник

AN

Alexander Novikov in RL reading group
Думаю по флопсам ровно столько же вышло, там лимит по времени думания и оба подхода отлично параллелятся)
источник

EE

Evgenii Egorov in RL reading group
А кто-нибудь смотрел сами партии? Там получилось что-то не ожиданное?
источник

EK

Evgeny Kovalev in RL reading group
(вот ссылка, если что)
https://lichess.org/study/EOddRjJ8
источник

AM

Aleksandr Mikhailov ... in RL reading group
во время обучения она некоторые начала вообще перестала играть, судя по графику, и все чаще выбирать ферзевой гамбит и английское начало (если я правильно проинтерпретировал график)
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Alexander Novikov
Думаю по флопсам ровно столько же вышло, там лимит по времени думания и оба подхода отлично параллелятся)
да нифига, там же несколько tpu
источник

EE

Evgenii Egorov in RL reading group
Aleksandr Mikhailov 😷
во время обучения она некоторые начала вообще перестала играть, судя по графику, и все чаще выбирать ферзевой гамбит и английское начало (если я правильно проинтерпретировал график)
Понятно. Типичный закрытый :)
источник

AM

Aleksandr Mikhailov ... in RL reading group
Evgenii Egorov
Понятно. Типичный закрытый :)
ну мб это самые сложные для AlphaZero оказались
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
ну вообще движковые профи сделали пару серьезных замечаний по методике
источник

AM

Aleksandr Mikhailov ... in RL reading group
Evgenii Zheltonozhskii🇮🇱
ну вообще движковые профи сделали пару серьезных замечаний по методике
на форуме lichess читаешь?
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Aleksandr Mikhailov 😷
на форуме lichess читаешь?
talkchess
источник

AN

Alexander Novikov in RL reading group
Ок, point taken, они наверное чужие движки на TPU не переписывали.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Alexander Novikov
Ок, point taken, они наверное чужие движки на TPU не переписывали.
альфабета больше приспособлена для cpu
источник

AM

Aleksandr Mikhailov ... in RL reading group
люди сидели, годами писали движок, тут пришел дип майнд и через несколько часов движок побит) конечно нужно к чему-то придраться, но это все такое себе
источник