Size: a a a

RL reading group

2018 May 05

S

Shmuma in RL reading group
Нет, я пока собрал список желающих и отправил в издательство. Сейчас идет подготовка финальных драфтов, думаю это еще неделя-две, потом уже из издательства напишут
источник

LG

Leonid Gremyachikh in RL reading group
понял, спасибо.
источник

AA

Albert Atlasov in RL reading group
Shmuma
Это они читать или ревьюить? Седьмая глава большая, там страниц 40, что ли. Остальные по 20-25
Прочитать и потестить код 7 глав
источник

MY

Misha Yagudin in RL reading group
источник

MY

Misha Yagudin in RL reading group
источник

AM

Aleksandr Mikhailov ... in RL reading group
Kirill Bobyrev
Кстати, кажется, тут почему-то не было: Facebook буквально несколько дней назад выкатил ELF OpenGo (https://research.fb.com/facebook-open-sources-elf-opengo/)

Пишут, что бот сыграл 198-2 с LeelaZero (наиболее сильная открытая реализация AlphaGo Zero на тот момент), 14-0 с топовыми мировыми игроками в Go, причём в процессе игры на prediction боту давалось 50 секунд на одной GPU, а людям — неограниченное количество времени для обдумывания хода.

Обновлённый ELF переехал в PyTorch (https://github.com/pytorch/elf).
а в шахматы они осилили?
источник

AM

Aleksandr Mikhailov ... in RL reading group
чёт я бегло глянул, кажется что нет
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Aleksandr Mikhailov 😷
а в шахматы они осилили?
если они выкинут шахматную модель в опенсорс это будет бомба
источник

AM

Aleksandr Mikhailov ... in RL reading group
Evgenii Zheltonozhskii🇮🇱
если они выкинут шахматную модель в опенсорс это будет бомба
угу, я уже предвкушал, что сейчас скачаю, а фиг вам
источник

AM

Aleksandr Mikhailov ... in RL reading group
может они всё-таки не забросили, и шахматная модель уже учится/готовится к выкладке в опенсорс
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Aleksandr Mikhailov 😷
может они всё-таки не забросили, и шахматная модель уже учится/готовится к выкладке в опенсорс
просто шахматы сложнее)
источник

SK

Sergey Kolesnikov in RL reading group
товарищи, я тут решил world models почитать и вам советую
кто читал, можете меня пнуть, что я забыл/упустил:
https://github.com/Scitator/papers/blob/master/papers/1803_world_models.md
источник
2018 May 06

S

Shmuma in RL reading group
@Scitator спасибо за обзор. Хотел что-то подобное в retro contest запилить
источник

SK

Sergey Kolesnikov in RL reading group
я тоже думал, но пришел к выводу, что подход может оказаться too complicated, с учётом времени на компетишен и надо пробовать что-то проще
источник
2018 May 09

KI

Karim Iskakov in RL reading group
"Current top entry on the @OpenAI Retro Contest Leaderboard has learned to glitch through a test level. Devious RL!"
👤 @jackclarkSF (twitter)
📉 @loss_function_porn
источник

c

cydoroga in RL reading group
Всем привет!
Завтра на семинаре выступлю я.
В ШАДе, в 19:00, ауд Стенфорд

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Доклад будет посвящен статье Latent Space Policies for Hierarchical Reinforcement Learning.

Мы поговорим о том, как задачу обучения с подкреплением описать с помощью направленной графической модели и как, далее, из этой постановки получить PG с максимизацией энтропии.
Изучим метод, позволяющий из получившейся графмодели сделать иерархическую политику, в которой изменения, вносимые низкоуровневыми действиями, обратимы и не понижают качество. Метод выглядит стройным и без обилия эвристик.

Приходите, будет интересно.
источник

MG

Maria Garkavenko in RL reading group
cydoroga
Всем привет!
Завтра на семинаре выступлю я.
В ШАДе, в 19:00, ауд Стенфорд

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Доклад будет посвящен статье Latent Space Policies for Hierarchical Reinforcement Learning.

Мы поговорим о том, как задачу обучения с подкреплением описать с помощью направленной графической модели и как, далее, из этой постановки получить PG с максимизацией энтропии.
Изучим метод, позволяющий из получившейся графмодели сделать иерархическую политику, в которой изменения, вносимые низкоуровневыми действиями, обратимы и не понижают качество. Метод выглядит стройным и без обилия эвристик.

Приходите, будет интересно.
а видео будет?
источник

c

cydoroga in RL reading group
Maria Garkavenko
а видео будет?
Зависит, видимо, от того, придет ли @Parilo или @Shmuma завтра
источник

S

Shmuma in RL reading group
Да, запишем
источник

AP

Anton Pechenko in RL reading group
Я буду, да
источник