Привет! Нужно научить классификатор определять время новости (новость о прошлом или о будущем). Посоветовали использовать Natasha - у глаголов можно будет вытянуть время, но тут могут возникнуть подводные камни с разными формами образования времен. Например: По прогнозам аналитиков, ожидается рост выручки в 1,61 раза или обманутые дольщики смогут получить помощь от государства. Посоветуйте, плз, в каком направлении можно двигаться
Привет! Помимо того, что посоветовали, я бы ещё подумала над формулировкой задачи (в зависимости от того, для чего потом используется классификация). Вряд ли тексты реальных новостей можно четко разделить на две категории, т.к. очень часто сам текст строится по принципу "сначала рассказываем о событии, потом о возможных последствиях". Условно говоря "учёные изобрели 10 разных вакцин, поэтому в ближайшее время удастся привить половину населения планеты", "за Иванова прогосовало 146% населения, так что он остаётся на второй срок". Именно новостные заметки, а не различную аналитику/мнения экспертов, пишут обычно на основе информационных поводов и прошедших событий. Не получится ли, что там везде в среднем преобладает прошедшее время? Возможно, нужно классифицировать не весь текст, а отдельные предложения/абзацы (если нужно выделить все прогнозы) или заголовки.
Если делать классификатор на основе граммем или решать эвристиками (количество глаголов в определённом времени в тексте), я бы брала не ярги, а pymorphy (в ярги, если я правильно помню, везде он используется)/mystem/rnnmorph, и размечала время на настоящее/непрошедшее/прошедшее (в НКРЯ и у mystem такая же разметка).