ну я в последний день натренил other - и все говно начало туда уходить) Возможно перестарался где то слегка, хз. Но треша - который сложно назвать новостями реально оч много.
fasttext во все поля. Определние языка вообще коробочное: https://fasttext.cc/docs/en/language-identification.html (с фиксом таджикского или какого-то такого). Предобученные эмбеды на первых 2 архивах и внешних датасетах. Классификаторы новость/не новость их же, с их же квантизацией из коробки. Кластеризация на эмбедах, доученных на похожесть на половинках текстов. Топы: время + размер кластера + PageRank