Size: a a a

RL reading group

2019 April 20

EZ

Evgenii Zheltonozhsk... in RL reading group
Konstantin Ostrovsky
Однако в игре такие боты неплохо бы смотрелись. Надо только настроить их на взаимодействие с игроками-людьми. Да и в научном плане, мне кажется, это очень крутая полезная задача, учить агента взаимодействию с человеком.
проблема в том что с каждым патчем надо перетренить
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
источник

SA

See All in RL reading group
Konstantin Ostrovsky
Пускай тогда заопенсорсят ботов и кто-то другой продолжит это развивать. иначе в чем смысл:)
>опенсорсят
>тысячи долларов на тренировки, огромный кластер
источник

KO

Konstantin Ostrovsky in RL reading group
Evgenii Zheltonozhskii🇮🇱
проблема в том что с каждым патчем надо перетренить
Думается, у valve достаточно ресурсов, они бы могли при желании. К тому же не с нуля ведь обучать, а адаптировать веса под несколько измененную среду, если текущий алгоритм, конечно, с этим справится, что тоже интересно
источник

IB

Ilya Boldyrev in RL reading group
Evgenii Zheltonozhskii🇮🇱
проблема в том что с каждым патчем надо перетренить
У людей та же проблема)
Плюс, как ниже верно подметили, вряд ли придется механики с нуля учить, лишь обновить часть весов.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Ilya Boldyrev
У людей та же проблема)
Плюс, как ниже верно подметили, вряд ли придется механики с нуля учить, лишь обновить часть весов.
ну просто опенаи не собирается этим заниматься)
источник

KO

Konstantin Ostrovsky in RL reading group
Ilya Boldyrev
У людей та же проблема)
Плюс, как ниже верно подметили, вряд ли придется механики с нуля учить, лишь обновить часть весов.
Просто может оказаться, что новая оптимальная политика сильно отличается от прежней. Допустим, в патче уменьшили золото за башни и лес, тогда то, что делают боты сейчас, станет совсем неэффективно. Насколько быстро получится адаптироваться, хотелось бы посмотреть:)
источник
2019 April 21

E

Evgenii Katsevman in RL reading group
О, Адель
источник

AI

Adel Iarullin in RL reading group
✌️. Евгений
источник

AC

Artur Chakhvadze in RL reading group
Мне кажется что абуз в принципе нельзя побороть иначе как постоянным дообучением
источник

AC

Artur Chakhvadze in RL reading group
Или онлайн-адапатцией агентов
источник

AC

Artur Chakhvadze in RL reading group
Потому что если человек научится играть и будет постоянно разыгрывать одну стратегию, он тоже в итоге огребет
источник

AC

Artur Chakhvadze in RL reading group
В профессиональной доте же тоже мета постоянно меняется
источник

П

Пётр in RL reading group
Можно попробовать transfer learningом научиться абузу, а потом дообучить.
источник

AC

Artur Chakhvadze in RL reading group
Я думаю что можно делать что-то типа вариационного агента, который выучивает распределение на политики и в онлайне это распределение адаптировать чтобы законтрить абьюз
источник

AC

Artur Chakhvadze in RL reading group
Чём-то типа posterior sharpening отсюда https://arxiv.org/pdf/1704.02798.pdf
источник

AC

Artur Chakhvadze in RL reading group
(Но я не RL рисерчер, поэтому не знаю preliminary work)
источник

AC

Artur Chakhvadze in RL reading group
Если кто-то прочекает что такого раньше не делали и захочет замутить совсместный рисерч, я за
источник

AC

Artur Chakhvadze in RL reading group
Я в общем-то понимаю как это можно на self-play красиво положить
источник
2019 April 24

DK

Dmitriy Krylov in RL reading group
Привет, а есть статейки на тему RL, когда у нас не дискретный набор действий?
источник