Ну так таблички - это и есть dp, если все (state, action) перебирабельны
да, но дп там не обязательно. основное, ради чего прикручивают МЛ к РЛю - размерность стейтов огромная (или вообще не счетная). при этом большинство стейтов ты вообще посетить не можешь. поэтому с помощью МЛя ты пытаешься аппроксимировать свою оценку стейта/экшна