Можно на немного допиленном стартгае тренировать
Здравый смысл говорит, что эффективнее будет учиться на сильных игроках - затраты те же, результат заметно лучше. Поэтому, если данные есть, то лучше их делать доступными. У RL-разработчиков есть много других рисков не смочь выдать что-то адекватно рабочее в сроки проведения (эксперименты с моделями, ошибки в аналитике/обработке/подготовке данных [которые ловить сложнее, чем в ифах], наличие досточного количества ресурсов). Лучше им/нам жизнь не усложнять лишний раз.