Телеграмм чат группы theoreticalrl страница 137

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

2019 April 20

EZ

Evgenii Zheltonozhsk... in RL reading group

Konstantin Ostrovsky

Однако в игре такие боты неплохо бы смотрелись. Надо только настроить их на взаимодействие с игроками-людьми. Да и в научном плане, мне кажется, это очень крутая полезная задача, учить агента взаимодействию с человеком.

проблема в том что с каждым патчем надо перетренить

источник

13:57пожаловаться #1

EZ

Evgenii Zheltonozhsk... in RL reading group

https://www.reddit.com/r/DotA2/comments/bf49yk/hello_were_the_dev_team_behind_openai_five_we/elavr2n

r/DotA2 - Hello - we're the dev team behind OpenAI Five! We will be answering questions starting at 2:30pm PDT.

1,412 votes and 639 comments so far on Reddit

источник

13:58пожаловаться #2

SA

See All in RL reading group

Konstantin Ostrovsky

Пускай тогда заопенсорсят ботов и кто-то другой продолжит это развивать. иначе в чем смысл:)

>опенсорсят
>тысячи долларов на тренировки, огромный кластер

источник

14:00пожаловаться #3

KO

Konstantin Ostrovsky in RL reading group

Evgenii Zheltonozhskii🇮🇱

проблема в том что с каждым патчем надо перетренить

Думается, у valve достаточно ресурсов, они бы могли при желании. К тому же не с нуля ведь обучать, а адаптировать веса под несколько измененную среду, если текущий алгоритм, конечно, с этим справится, что тоже интересно

источник

14:00пожаловаться #4

IB

Ilya Boldyrev in RL reading group

Evgenii Zheltonozhskii🇮🇱

проблема в том что с каждым патчем надо перетренить

У людей та же проблема)
Плюс, как ниже верно подметили, вряд ли придется механики с нуля учить, лишь обновить часть весов.

источник

14:07пожаловаться #5

EZ

Evgenii Zheltonozhsk... in RL reading group

У людей та же проблема)
Плюс, как ниже верно подметили, вряд ли придется механики с нуля учить, лишь обновить часть весов.

ну просто опенаи не собирается этим заниматься)

источник

14:09пожаловаться #6

KO

Konstantin Ostrovsky in RL reading group

У людей та же проблема)
Плюс, как ниже верно подметили, вряд ли придется механики с нуля учить, лишь обновить часть весов.

Просто может оказаться, что новая оптимальная политика сильно отличается от прежней. Допустим, в патче уменьшили золото за башни и лес, тогда то, что делают боты сейчас, станет совсем неэффективно. Насколько быстро получится адаптироваться, хотелось бы посмотреть:)

источник

14:12пожаловаться #7

2019 April 21

E

Evgenii Katsevman in RL reading group

О, Адель

источник

15:05пожаловаться #8

AI

Adel Iarullin in RL reading group

✌️. Евгений

источник

15:07пожаловаться #9

AC

Artur Chakhvadze in RL reading group

Мне кажется что абуз в принципе нельзя побороть иначе как постоянным дообучением

источник

17:46пожаловаться #10

AC

Artur Chakhvadze in RL reading group

Или онлайн-адапатцией агентов

источник

17:46пожаловаться #11

AC

Artur Chakhvadze in RL reading group

Потому что если человек научится играть и будет постоянно разыгрывать одну стратегию, он тоже в итоге огребет

источник

17:46пожаловаться #12

AC

Artur Chakhvadze in RL reading group

В профессиональной доте же тоже мета постоянно меняется

источник

17:47пожаловаться #13

П

Пётр in RL reading group

Можно попробовать transfer learningом научиться абузу, а потом дообучить.

источник

17:52пожаловаться #14

AC

Artur Chakhvadze in RL reading group

Я думаю что можно делать что-то типа вариационного агента, который выучивает распределение на политики и в онлайне это распределение адаптировать чтобы законтрить абьюз

источник

17:56пожаловаться #15

AC

Artur Chakhvadze in RL reading group

Чём-то типа posterior sharpening отсюда https://arxiv.org/pdf/1704.02798.pdf

источник

17:57пожаловаться #16

AC

Artur Chakhvadze in RL reading group

(Но я не RL рисерчер, поэтому не знаю preliminary work)

источник

17:57пожаловаться #17

AC

Artur Chakhvadze in RL reading group

Если кто-то прочекает что такого раньше не делали и захочет замутить совсместный рисерч, я за

источник

17:58пожаловаться #18

AC

Artur Chakhvadze in RL reading group

Я в общем-то понимаю как это можно на self-play красиво положить

источник

18:03пожаловаться #19

2019 April 24

DK

Dmitriy Krylov in RL reading group

Привет, а есть статейки на тему RL, когда у нас не дискретный набор действий?

источник

21:56пожаловаться #20