В кейсе из курса батчей небыло, всё по одному подавал и, в целом, не плохо :)
Я скорее ищу какой-нибудь хак, чтоб учесть токены справа, потому что если строка длинная, то, как мне кажется, преимущества я не получу.
Сейчас в мыслях что-то вроде "предсказывать для каждого токена метки на n позиций назад" - мы так и вперёд немного посмотрим, и слишком далеко не уйдём. Но хотелось бы ещё о каких-то более каноничных вещах послушать/почитать, прежде чем идти прикручивать сеть с вниманием и использовать скользящее окно фиксированной ширины с overlaps для работы с очень длинными предложениями :(