Size: a a a

RL reading group

2018 June 25

AC

Artur Chakhvadze in RL reading group
Насколько я понимаю, оно работает только с теми архитектурами, для которых умеют K-FAC, да?
источник

📒

📒 in RL reading group
и по идее k-fac можно вместе с ppo
источник

📒

📒 in RL reading group
поэтому сравнивать прямо нельзя
источник

📒

📒 in RL reading group
Artur Chakhvadze
Насколько я понимаю, оно работает только с теми архитектурами, для которых умеют K-FAC, да?
да для рекуренток же есть пейпер
источник

AG

Aleksey Grinchuk in RL reading group
Блин, у ребят batch size больше чем у меня размер replay buffer бывает ):
источник

AC

Artur Chakhvadze in RL reading group
📒
да для рекуренток же есть пейпер
Его реализовывать очень больно же
источник

SK

Sergey Kolesnikov in RL reading group
я конечно дико извиняюсь, но где тут "архитектуры нейронок не ботлнек?"
https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
источник

SK

Sergey Kolesnikov in RL reading group
ой, да камон, вот когда он на правилах шахматы напишет, или го - вот тогда поговорим
источник

AG

Aleksey Grinchuk in RL reading group
Тут скорее троллинг того как написан Rudder.
источник

AG

Aleksey Grinchuk in RL reading group
Ведь там очень кичатся что они побили всех-всех-всех на боулинге и ещё где-то.
источник

📒

📒 in RL reading group
боулинг это же не mdp даже лол
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Sergey Kolesnikov
ой, да камон, вот когда он на правилах шахматы напишет, или го - вот тогда поговорим
так раддер на боулинге соту показал и еще на одной фигне
источник

EP

Egor Panfilov in RL reading group
Sergey Kolesnikov
люблю OpenAI
И это всё, судя по видео, для фиксированных 5 пиков и mirror mode. Умножаем на 1eX (X >> 6), получаем время, необходимое для доведения системы до "this year we wanna beat pro teams".
источник

SA

See All in RL reading group
Egor Panfilov
И это всё, судя по видео, для фиксированных 5 пиков и mirror mode. Умножаем на 1eX (X >> 6), получаем время, необходимое для доведения системы до "this year we wanna beat pro teams".
beat pro можно и на 5и пиках)
источник

SA

See All in RL reading group
а против людей они не мирроры играли
источник

SA

See All in RL reading group
но согласен, что долго будет
источник

EP

Egor Panfilov in RL reading group
Там 100 с небольшим героев в игре. 100**5 множитель чисто на комбинации героев в своей команде. Что-то у них все заявления, связанные с Dota, слишком громкие 😄
источник

EP

Egor Panfilov in RL reading group
Плюс каждые полгода выходит мажорный патч, и мета-игра меняется. Что значит, что нужно дообучать. 😉
источник

SA

See All in RL reading group
зачем учить каждого героя с каждым на взаимодействия L u L
источник