Телеграмм чат группы natural_language_processing страница 859

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2106 membersпожаловаться на группу

2020 October 05

МП

Михаил Притугин... in Natural Language Processing

Коллеги, долго не могу решить задачу, был бы рад свежему взгляду.
Дано: Коллекция текстов (много)
Коллекция представляет собой посты групп из социальной сети различных тематик, комментарии (поэтому много спама, но также есть важные темы, например, новости)
Задача: найти важные тексты (новости, события)
Тематическое моделирование на таких данных работать не должно (да и не работает, потому что много бесполезных текстов) + нет заранее информации о кол-во тем/событий
Буду рад вашим гипотезам! Спасибо!

источник

13:49пожаловаться #1

A

Aragaer in Natural Language Processing

я б сказал классификация или хотя бы кластеризация

источник

13:51пожаловаться #2

D

Dmitry in Natural Language Processing

может все это векторизовать, а потом dbscan какой-нибудь для кластеризации?

источник

13:51пожаловаться #3

МП

Михаил Притугин... in Natural Language Processing

Вот dbscan я как раз хочу попробовать и потом как-то ранжировать по размеру кластера
Кажется важные темы должны вылезти вверх

источник

14:01пожаловаться #4

D

Dmitry in Natural Language Processing

Михаил Притугин

Вот dbscan я как раз хочу попробовать и потом как-то ранжировать по размеру кластера
Кажется важные темы должны вылезти вверх

Как в вашем случае определяется важность? Как вы её понимаете?

источник

14:02пожаловаться #5

МП

Михаил Притугин... in Natural Language Processing

Формально важным я считаю новостной пост
Какая-то новость/событие

источник

14:05пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

Михаил Притугин

Коллеги, долго не могу решить задачу, был бы рад свежему взгляду.
Дано: Коллекция текстов (много)
Коллекция представляет собой посты групп из социальной сети различных тематик, комментарии (поэтому много спама, но также есть важные темы, например, новости)
Задача: найти важные тексты (новости, события)
Тематическое моделирование на таких данных работать не должно (да и не работает, потому что много бесполезных текстов) + нет заранее информации о кол-во тем/событий
Буду рад вашим гипотезам! Спасибо!

Важность можно определять через вероятность продолжения темы по архиву: если через день/два/три для новости пишут продолжения, то она важная. И чем больше продолжений (в разных СМИ), тем важнее.

источник

14:05пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

Михаил Притугин

Формально важным я считаю новостной пост
Какая-то новость/событие

А, у вас не только новости, и проблема определить не важность новости, а новость ли. Это вы можете только через разметку датасета получить. Сложно и вряд ли будут устойчивые хорошие результаты. Вместо разметки прокси-задачей может быть: positive learning, когда в positive dataset -- все новости из СМИ, в "all/negative" -- ваши форумные посты. Тогда чем ближе пост к новости, тем он больше новость.
Или другой похожий вариант: искать кусочки новости в посте.

источник

14:10пожаловаться #8

YN

Yuriy Nazarov in Natural Language Processing

Может perplexity языковой модели обученной на новостях?

источник

14:11пожаловаться #9

МП

Михаил Притугин... in Natural Language Processing

Важность можно определять через вероятность продолжения темы по архиву: если через день/два/три для новости пишут продолжения, то она важная. И чем больше продолжений (в разных СМИ), тем важнее.

К сожалению, условия требуют нахождения right now
В будущее заглянуть нельзя)
Вот в прошлое можно, но в прошлом не будет новостей сегодня (точнее будут продолжения прошлых новостей, но они уже должны быть найдены, если задача решена)

источник

14:14пожаловаться #10

МП

Михаил Притугин... in Natural Language Processing

А, у вас не только новости, и проблема определить не важность новости, а новость ли. Это вы можете только через разметку датасета получить. Сложно и вряд ли будут устойчивые хорошие результаты. Вместо разметки прокси-задачей может быть: positive learning, когда в positive dataset -- все новости из СМИ, в "all/negative" -- ваши форумные посты. Тогда чем ближе пост к новости, тем он больше новость.
Или другой похожий вариант: искать кусочки новости в посте.

Возможно точность и будет приемлемой, а вот полнота нет

источник

14:15пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

Может perplexity языковой модели обученной на новостях?

Грубо говоря, суммировать частотность слов поста по словарю из поста, деленную на (или из которой вычитается) частотность этих же слов в новостной модели.

источник

14:15пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

Михаил Притугин

К сожалению, условия требуют нахождения right now
В будущее заглянуть нельзя)
Вот в прошлое можно, но в прошлом не будет новостей сегодня (точнее будут продолжения прошлых новостей, но они уже должны быть найдены, если задача решена)

Ну так если вы сегодняшние новости не грабите, то тогда модель и используется для сравнения типичной новости и поста. Вопрос -- какую модель взять, как модель научить и на чем.

источник

14:16пожаловаться #13

МП

Михаил Притугин... in Natural Language Processing

Есть гипотеза, что если если определять ключевые слова в посте
А потом смотреть кол-во таких слов в текстах
То можно получить важность каждого слова
А потом как-то находить тексты, где много важных слов

источник

14:18пожаловаться #14

МП

Михаил Притугин... in Natural Language Processing

Есть какие-то решения из коробки для ключевых слов, которые работают быстро?

источник

14:19пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

Я думаю, вам даже ner на персоны даже хватит. Если упоминается Путин, значит это про новости.

источник

14:19пожаловаться #16

МП

Михаил Притугин... in Natural Language Processing

Новость может быть и без персон)

источник

14:19пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

Другие готовые ner вам вряд ли помогут. Как и другие имеющиеся готовые модели.

источник

14:20пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

Ещё можете попробовать упоминания точных дат искать. Но проще уж свою модель выучить.

источник

14:21пожаловаться #19

AZ

Andrey Zakharov in Natural Language Processing

можно попробовать обучить простую модель на текстах ленты_ру и риа новости определять новость ( в качестве позитивных примеров)

источник

14:41пожаловаться #20