Size: a a a

RL reading group

2019 May 09

VA

Vladimir Aliev in RL reading group
Плюс смущает что теоремы доказаны для eta=1, а наилучшие результаты у них с eta=1e-3
источник
2019 May 12

AM

Aleksandr Mikhailov ... in RL reading group
будем знать
источник

DP

Dmitry Podoprikhin in RL reading group
Сорян
источник
2019 May 15

AZ

Andrii Zadaianchuk in RL reading group
Всем привет! У меня вопрос к тем кто занимается Model-Based RL. Я смотрю сетки, которые тренируют в статьях, и почему-то нигде не вижу l2 регуляризации при обучении модели. Например, в этой статье
https://arxiv.org/pdf/1708.02596.pdf
ни в статье, ни в коде ни слова о регуляризации нет (ну вернее нет l2, по сути, как я понял они добавляют шум ко входу, что тоже можно считать регуляризацией).
Вопрос: Есть ли этому какие-то причины, почему так?
#mbrl #l2
источник

П

Пётр in RL reading group
А что такое переобучение в RL?
источник

AC

Artur Chakhvadze in RL reading group
Andrii Zadaianchuk
Всем привет! У меня вопрос к тем кто занимается Model-Based RL. Я смотрю сетки, которые тренируют в статьях, и почему-то нигде не вижу l2 регуляризации при обучении модели. Например, в этой статье
https://arxiv.org/pdf/1708.02596.pdf
ни в статье, ни в коде ни слова о регуляризации нет (ну вернее нет l2, по сути, как я понял они добавляют шум ко входу, что тоже можно считать регуляризацией).
Вопрос: Есть ли этому какие-то причины, почему так?
#mbrl #l2
В нейросетях вообще почти никогда не используют l2 регуляризацию сейчас
источник

П

Пётр in RL reading group
Artur Chakhvadze
В нейросетях вообще почти никогда не используют l2 регуляризацию сейчас
Я не видел, чтобы даже сильно глубокие сети использовали, чтобы дропаут надо было использовать.
источник

П

Пётр in RL reading group
Artur Chakhvadze
В нейросетях вообще почти никогда не используют l2 регуляризацию сейчас
Да и вообще, у нас же как таковой выборки нет, под которую можно подогнаться.
источник

AC

Artur Chakhvadze in RL reading group
Ну в model-based есть
источник

AS

Artyom Sorokin in RL reading group
На самом деле можно и на распределении задач учить RL алгоритм. И потом проверять на тестовой выборке.
источник

П

Пётр in RL reading group
Artur Chakhvadze
Ну в model-based есть
У тебя в DQN так или иначе выборка тоже постоянно меняется.
источник

AC

Artur Chakhvadze in RL reading group
Во-первых DQN не model based
источник

AC

Artur Chakhvadze in RL reading group
Во-вторых, ты даже на бесконечно большой выборке можно переобучиться
источник

П

Пётр in RL reading group
Я тебя неправильно понял, всё. Что ты имеешь ввиду под model-based? Обучение на реплеях?
источник

П

Пётр in RL reading group
Artur Chakhvadze
Во-вторых, ты даже на бесконечно большой выборке можно переобучиться
А вот тут поподробнее, если можно.
источник

AC

Artur Chakhvadze in RL reading group
Model based это когда ты явно получаешь p(next state|state, action) и p(reward|state, action)
источник

AS

Artyom Sorokin in RL reading group
На реплеях это imitation learning.
источник

AC

Artur Chakhvadze in RL reading group
Пётр
А вот тут поподробнее, если можно.
У тебя распределение объектов, насемпленых во время обучения может иметь bias определенный
источник

AC

Artur Chakhvadze in RL reading group
В RL на играх этого вроде не бывает, но в реальной жизни постоянно
источник

AC

Artur Chakhvadze in RL reading group
Например если ты учишься на фото с телефонов, а применяешься на фото с DSLR, у тебя может упасть качество
источник