Size: a a a

RL reading group

2018 March 08

LG

Leonid Gremyachikh in RL reading group
Interplanetary Trajectory Planning
with Monte Carlo Tree Search
https://pdfs.semanticscholar.org/ce42/53ca1c5b16e96cdbefae75649cd2588f42f3.pdf
источник

LG

Leonid Gremyachikh in RL reading group
Monte Carlo Tree Search for Continuous and Stochastic
Sequential Decision Making Problems
https://tel.archives-ouvertes.fr/tel-00927252/document
источник

AP

Anton Pechenko in RL reading group
Не видел раньше применения MCTS для непрерывных сред
источник

AP

Anton Pechenko in RL reading group
@bamasa Для тех алгоритмов, что я указал даже есть реализации готовые на гитхабе, можно довольно быстро попрбовать
источник

LG

Leonid Gremyachikh in RL reading group
Спасибо! Думаю, так я и сделаю.
источник

P

Pavel Shvechikov in RL reading group
Artur Chakhvadze
А откуда такое берется?
Ссори, пропустил.
Да не откуда в общем. В теории распр Коши возникает в том числе из практический соображений, то есть потенциально агенту встретиться может. А он, решая задачу регрессии решить ее не сможет без спец методов.
источник
2018 March 12

АП

Алексей Полиевиц... in RL reading group
а будет семинар в этот четверг (15-го марта)?
источник

c

cydoroga in RL reading group
Алексей Полиевиц
а будет семинар в этот четверг (15-го марта)?
Да, будет
Анонс будет чуть позже
источник
2018 March 13

MY

Misha Yagudin in RL reading group
Слегка по касательной ~15 минут назад начался сбор вопросов на AMA about GANs w/ Ian Goodfellow, само AMA будет в четверг.

Upd: fermatslibrary.com/arxiv_comments?url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf
Upd2: 🤦‍♂️
источник
2018 March 14

c

cydoroga in RL reading group
Всем привет!
В этот четверг, как обычно, наш семинар пройдет в 19:00 в Стенфорде.

На семинаре выступлю я со статьей Learning and Querying Fast Generative Models for Reinforcement Learning
https://arxiv.org/pdf/1802.03006.pdf
Статью написали ребята из Deepmind

Мы разберемся, как создать хорошую модель динамики среды. То есть поговорим о model-based RL. И посмотрим, как авторы уделали model-free SoTA на MS_PACMAN.

Будет интересно, не забудьте зарегистрироваться по ссылке сегодня, если хотите прийти:
https://goo.gl/forms/n8ueMHhbv4nsIUm52
источник

AP

Anton Pechenko in RL reading group
Я, вероятно, не смогу быть и провести трансляцию, так как болею
источник

📒

📒 in RL reading group
жаль что не получилось со стримом, как раз вчера работал над model based, в любом случае спасибо за пейпер не слышал про него
источник
2018 March 15

c

cydoroga in RL reading group
Ребят, я похоже заболел, и вряд ли смогу очухаться до вечера(
Поэтому предлагаю все же сегодня доклад отменить
источник
2018 March 18

AG

Aleksey Grinchuk in RL reading group
Ребят, кто-нибудь знает как мне в Питоне раскидать несколько процессов по CPU карточкам? Мне бы хотелось сделать штуку, которая в параллели несколько игр запускает и собирает данные в Reaply Buffer. Буду благодарен, если кто-то в этом шарит и может помочь или поделиться грамотным гайдом.
источник

EN

Evgenii Nikishin in RL reading group
пакет multiprocessing — в нём создаёшь столько процессов, сколько хочешь одновременно выполняющихся сред
источник

S

Shmuma in RL reading group
В pytorch есть обертка вокруг muliprocessing. Я делал что-то примерно как ты описываешь для dqn. В меру грамотный гайд тут: “Speeding up DQN on PyTorch: how to solve Pong in 30 minutes” https://medium.com/mlreview/speeding-up-dqn-on-pytorch-solving-pong-in-30-minutes-81a1bd2dff55
источник

SK

Sergey Kolesnikov in RL reading group
источник

SK

Sergey Kolesnikov in RL reading group
как мне кажется, там можно просто поменять среду на какую-нибудь continuous из gym и будет работать
источник

AP

Anton Pechenko in RL reading group
#!/usr/bin/env python

import subprocess
import atexit
import time

ps = []

for i in range (24):
   ps.append(subprocess.Popen(['python', 'agent.py', '--visualize']))

def on_exit():
   for p in ps:
       p.kill ()

atexit.register(on_exit)

while True:
   time.sleep(60)
источник
2018 March 20

AP

Anton Pechenko in RL reading group
Ребята, а дайте правильную ссылку на d4pg?
источник