Size: a a a

Natural Language Processing

2020 October 05

МП

Михаил Притугин... in Natural Language Processing
Коллеги, долго не могу решить задачу, был бы рад свежему взгляду.
Дано: Коллекция текстов (много)
Коллекция представляет собой посты групп из социальной сети различных тематик, комментарии (поэтому много спама, но также есть важные темы, например, новости)
Задача: найти важные тексты (новости, события)
Тематическое моделирование на таких данных работать не должно (да и не работает, потому что много бесполезных текстов) + нет заранее информации о кол-во тем/событий
Буду рад вашим гипотезам! Спасибо!
источник

A

Aragaer in Natural Language Processing
я б сказал классификация или хотя бы кластеризация
источник

D

Dmitry in Natural Language Processing
может все это векторизовать, а потом dbscan какой-нибудь для кластеризации?
источник

МП

Михаил Притугин... in Natural Language Processing
Вот dbscan я как раз хочу попробовать и потом как-то ранжировать по размеру кластера
Кажется важные темы должны вылезти вверх
источник

D

Dmitry in Natural Language Processing
Михаил Притугин
Вот dbscan я как раз хочу попробовать и потом как-то ранжировать по размеру кластера
Кажется важные темы должны вылезти вверх
Как в вашем случае определяется важность? Как вы её понимаете?
источник

МП

Михаил Притугин... in Natural Language Processing
Формально важным я считаю новостной пост
Какая-то новость/событие
источник

YB

Yuri Baburov in Natural Language Processing
Михаил Притугин
Коллеги, долго не могу решить задачу, был бы рад свежему взгляду.
Дано: Коллекция текстов (много)
Коллекция представляет собой посты групп из социальной сети различных тематик, комментарии (поэтому много спама, но также есть важные темы, например, новости)
Задача: найти важные тексты (новости, события)
Тематическое моделирование на таких данных работать не должно (да и не работает, потому что много бесполезных текстов) + нет заранее информации о кол-во тем/событий
Буду рад вашим гипотезам! Спасибо!
Важность можно определять через вероятность продолжения темы по архиву: если через день/два/три для новости пишут продолжения, то она важная. И чем больше продолжений (в разных СМИ), тем важнее.
источник

YB

Yuri Baburov in Natural Language Processing
Михаил Притугин
Формально важным я считаю новостной пост
Какая-то новость/событие
А, у вас не только новости, и проблема определить не важность новости, а новость ли. Это вы можете только через разметку датасета получить. Сложно и вряд ли будут устойчивые хорошие результаты. Вместо разметки прокси-задачей может быть: positive learning, когда в positive dataset -- все новости из СМИ, в "all/negative" -- ваши форумные посты. Тогда чем ближе пост к новости, тем он больше новость.
Или другой похожий вариант: искать кусочки новости в посте.
источник

YN

Yuriy Nazarov in Natural Language Processing
Может perplexity языковой модели обученной на новостях?
источник

МП

Михаил Притугин... in Natural Language Processing
Yuri Baburov
Важность можно определять через вероятность продолжения темы по архиву: если через день/два/три для новости пишут продолжения, то она важная. И чем больше продолжений (в разных СМИ), тем важнее.
К сожалению, условия требуют нахождения right now
В будущее заглянуть нельзя)
Вот в прошлое можно, но в прошлом не будет новостей сегодня (точнее будут продолжения прошлых новостей, но они уже должны быть найдены, если задача решена)
источник

МП

Михаил Притугин... in Natural Language Processing
Yuri Baburov
А, у вас не только новости, и проблема определить не важность новости, а новость ли. Это вы можете только через разметку датасета получить. Сложно и вряд ли будут устойчивые хорошие результаты. Вместо разметки прокси-задачей может быть: positive learning, когда в positive dataset -- все новости из СМИ, в "all/negative" -- ваши форумные посты. Тогда чем ближе пост к новости, тем он больше новость.
Или другой похожий вариант: искать кусочки новости в посте.
Возможно точность и будет приемлемой, а вот полнота нет
источник

YB

Yuri Baburov in Natural Language Processing
Yuriy Nazarov
Может perplexity языковой модели обученной на новостях?
Грубо говоря, суммировать частотность слов поста по словарю из поста, деленную на (или из которой вычитается) частотность этих же слов в новостной модели.
источник

YB

Yuri Baburov in Natural Language Processing
Михаил Притугин
К сожалению, условия требуют нахождения right now
В будущее заглянуть нельзя)
Вот в прошлое можно, но в прошлом не будет новостей сегодня (точнее будут продолжения прошлых новостей, но они уже должны быть найдены, если задача решена)
Ну так если вы сегодняшние новости не грабите, то тогда модель и используется для сравнения типичной новости и поста. Вопрос -- какую модель взять, как модель научить и на чем.
источник

МП

Михаил Притугин... in Natural Language Processing
Есть гипотеза, что если если определять ключевые слова в посте
А потом смотреть кол-во таких слов в текстах
То можно получить важность каждого слова
А потом как-то находить тексты, где много важных слов
источник

МП

Михаил Притугин... in Natural Language Processing
Есть какие-то решения из коробки для ключевых слов, которые работают быстро?
источник

YB

Yuri Baburov in Natural Language Processing
Я думаю, вам даже ner на персоны даже хватит. Если упоминается Путин, значит это про новости.
источник

МП

Михаил Притугин... in Natural Language Processing
Новость может быть и без персон)
источник

YB

Yuri Baburov in Natural Language Processing
Другие готовые ner вам вряд ли помогут. Как и другие имеющиеся готовые модели.
источник

YB

Yuri Baburov in Natural Language Processing
Ещё можете попробовать упоминания точных дат искать. Но проще уж свою модель выучить.
источник

AZ

Andrey Zakharov in Natural Language Processing
можно попробовать обучить простую модель на текстах ленты_ру и риа новости определять новость ( в качестве позитивных примеров)
источник