Сначала я провожу небольшой препроцессинг: удаляю стоп-слова, провожу стэмминг (отсекаю лишние окончания и суффиксы).
Потом да, считаю. У похожих новостей как правило похожие заголовки, смотрю по ним.
Это не даст топ точности, но хотя бы выглядит тривиально.