Я когда делаю андерсемплинг, то часть семплю равновероятно, а часть - стратифицированно по каким-то простым признакам, выбранным мною экспертно. Например, по датам или длинам сообщений.
Танцы с бубном. Обычно я так делаю, когда нужно разметить вручную небольшую выборку, и я хочу её перебалансировать в направлении большего разнообразия. Но вообще вместо этого можно активное обучение фигачить.
Трудно сказать. Нейронки очень неустойчивы. Не поставишь точку в конце - неправильно переведет привет. Если примеров много и важно их правильно переводить, я бы не стал их резать, пусть посмотрит на них в разнообразных контекстах.
Привет. Подскажите, чем на Питоне перевести текст с английского на русский? Так чтобы точно, бесплатно и самое сложное - замапить слова между переводами. Примерно так: Кот на коврике -> The cat is on the mat Кот = Cat, коврике = mat
Во многих документах есть четкая структура, небольшие оглавления, названия параграфов. У них обычный шрифт, не выделены жирным, но человек может легко понять, что это вроде темы. Как можно было бы выявлять их?