хех, так как не могу назвать себя экспертом в MARL или же MCTS, то все, что я предвижу – быстро и стремительно разбираться в этом всем и натягивать на инфрастуктуру распределенного RL (тут уже опыт есть)
так что да, кажется опыт Practical RL тут может здорово зарешать