Про Электру знаю, спасибо) Это похоже, но не совсем то, т.к. в Электре генератор заменяет отдельные токены в тексте (которые потом дискриминатор должен выявить), а мой генератор должен создавать текст с нуля.
Сейчас я пользуюсь policy-based RL (алгоритм типа REINFORCE): увеличиваю вероятность сгенерированных текстов, которые нравятся дискриминатору, и уменьшают для тех, которые не нравятся. Это работает хорошо, но медленно - видимо, потому, что награда приходит за текст в целом, и генератор плохо понимает, какие токены надо заменить, и, главное, на что, и тратит много времени на пробы и ошибки. И вот я думаю, как эту штуку можно эффективнее ускорить.