Size: a a a

RL reading group

2018 September 04

📒

📒 in RL reading group
то есть там нужно в реплей бафер сохранять всю policy
источник

📒

📒 in RL reading group
потом вытаскивать old_policy.gather(1, old_action)
источник

📒

📒 in RL reading group
кажется само удобно чтобы модель просто отдавала объект класса policy, а у него были методы .sample и .log_prob так уже в пайторче сделано же
источник
2018 September 05

MY

Misha Yagudin in RL reading group
А какие есть игры двух игроков с небольшим, но интересным скрытым состоянием? Хороший пример — покер, где скрытое состояние — карты противника. Не очень хороший пример — итеративная дилемма заключённого, скрытое состояение — стратегия оппонента (не очень). Ещё в голову приходят слепые крестики-нолики. Ещё есть игры с «туманом войны».
источник

AM

Aynur Maksutov in RL reading group
Морской бой?
источник

MY

Misha Yagudin in RL reading group
Спасибо! Кажется, что морской бой это на самом деле две игры: придумать расстановку и придумать аттаку.
источник
2018 September 09

NB

Nikolay Bazenkov in RL reading group
Очко (блэк джек)? Мне кажется, что в морском бое есть оптимальная расстановка: крупные по краям, а одноклеточные в центре случайным образом.
источник

MY

Misha Yagudin in RL reading group
Спасибо, Николай.
источник

DM

Dmitry Mittov in RL reading group
Nikolay Bazenkov
Очко (блэк джек)? Мне кажется, что в морском бое есть оптимальная расстановка: крупные по краям, а одноклеточные в центре случайным образом.
вроде если один в центре. обоснование: максимизируем мат ожидание попадания в корабль при условии, что противник знает стратегию.
источник

AM

Aleksandr Mikhailov ... in RL reading group
Nikolay Bazenkov
Очко (блэк джек)? Мне кажется, что в морском бое есть оптимальная расстановка: крупные по краям, а одноклеточные в центре случайным образом.
Оптимальная расстановка должна быть какой-то рандомизированной, наверное
источник

NB

Nikolay Bazenkov in RL reading group
Dmitry Mittov
вроде если один в центре. обоснование: максимизируем мат ожидание попадания в корабль при условии, что противник знает стратегию.
Да, наверное, один в центре (случайное поле). Должно остаться максимальное число пустых клеток, если убить все другие корабли.
источник

DM

Dmitry Mittov in RL reading group
Aleksandr Mikhailov 😷
Оптимальная расстановка должна быть какой-то рандомизированной, наверное
по сравнению с совсем рандомизированной один корабль в центре увеличивает мат ожидание выстрелов противника, если он знает твою стратегию. не считал, но где-то прочел и поверил наслово.

но возможно есть стратегия лучше, что противник ее знает и все равно expectation еще выше. скорее всего нет, я верю, что один корабль - оптимальная, но доказательств я не видел.
источник

DM

Dmitry Mittov in RL reading group
с одним кораблем есть еще cheat trick, когда ты его просто не ставишь и делаешь вид, что противник промахивается ))
источник

AP

Alexander Pukhov in RL reading group
Если для одного корабля в центре в среднем требуется n / 2 выстрелов, где n — число центральных полей, то для двух / трех / четрых уже матожидание максимума (как я понимаю), то есть 2n/3, 3n/4, 4n/5.

Кажется, что это явно окупает те несколько дополнительных выстрелов на краю, так что один корабль — явно не оптимальная стратегия.
источник

AP

Alexander Pukhov in RL reading group
К сожалению, они там не независимы (в том плане, что вместе с кораблем умирает и окрестность, так что матожидание максимума неправильный ответ, например), так что честно оценить все сложно, и возможно большие стоит "детерминировано" ставить на край, чтобы уменьшить их окрестности. Но в любом случае стратегия должна выглядеть как распределение на всех возможных расстановках, скорее всего не равномерное.
источник
2018 September 13

SK

Sergey Kolesnikov in RL reading group
очень топовый обзор на max entropy rl by Levine:
https://arxiv.org/abs/1805.00909
байесовский катарсис, да и вообще тема огонь
PS. надо бы обновить papers за полгода
источник

AR

Artem Ryzhikov in RL reading group
🔥
источник
2018 September 14

AR

Artem Ryzhikov in RL reading group
Вкладка papers to discuss же? Я правильно понял, что всего два человека докладывались оттуда?
источник

AR

Artem Ryzhikov in RL reading group
?
источник

MY

Misha Yagudin in RL reading group
источник