Size: a a a

Natural Language Processing

2020 October 08

AL

Alexey Lemeshevski in Natural Language Processing
Михаил Притугин
Я так и пытался думать
Пытался понять как моя "нейросеть" в голове определяет важно/не важно.
NER конечно помогает
Выделяю личностей, например, считаю кол-во их упоминаний
Если личность часто упоминалась в текстах - то значит она связанна с какой-то важной новостью
Также пытался сделать с организациями (из коробки работает в natasha)
Но:
1) Полнота маленькая (не во всех новостях фигурируют личности)
2) Качество NER на сырых текстах, парсинг которых иногда барахлит, не самое лучшее
Так круто же ) То, что вы пишете в 1 и 2 - это и есть результат ) Можно же просто идти дальше:
1) теперь выделить новости без личностей; посмотреть внимательно только на них, и понять - какие ещё есть признаки
2) улучшать качество парсинга ) я давно занимаюсь парсингами - качества всегда можно улучшить ) ...либо подумать, как ещё собрать словарь именованных сущностей (может быть на других текстах) :)
источник

AO

Alex Orgish in Natural Language Processing
Понятие важно/не важно можно трактовать как определение хайпа. Чем больше статей на данную тематику за последний период, тем тема важнее.
источник

МП

Михаил Притугин... in Natural Language Processing
Тогда
а) нужно смысловое расстояние между двумя текстами
б) сравнить каждый с каждым нереально
источник

МП

Михаил Притугин... in Natural Language Processing
Я пытался искать дубли
Гипотеза: чем больше дублей у поста - тем он важнее
источник

AL

Alexey Lemeshevski in Natural Language Processing
Alex Orgish
Понятие важно/не важно можно трактовать как определение хайпа. Чем больше статей на данную тематику за последний период, тем тема важнее.
Либо на ее продвижение потрачено больше денег)
источник

МП

Михаил Притугин... in Natural Language Processing
а) много спама
б) посчитать нереально при большом кол-ве текстов
источник

SZ

Sasha Zhu in Natural Language Processing
Yuri Baburov
см .pad_sequence, pack_padded_sequence и подобные, там в доке про pytorch LSTM должно про них упоминаться
я могу в лс проконсультироваться?
источник

AL

Alexey Lemeshevski in Natural Language Processing
Я навскидку вот о чем подумал:
1) новости могут быть разного масштаба и тематики. Масштаб: мировые, по стране, по региону, по городу, по району, по жк, по дому, по квартире или отдельной семье/мини-сообществу (пример с кошкой). Тематики: политические (личности), экономика (цифры)... По жанру (возможно это не так называется): событие, рассуждение, мнение, исследование... Можно залезть в учебники для сми/журналстов и посмотреть, какие еще есть классификации. И подумать, нужны ли вам в задаче воооообще все новости, или только отдельные виды/типы/жанры. Если отдельные - то разметить тексты еще и по этим классификациям (руками/толокой) и признаки далее искать более узко.

2) выявить "интересность" для большого круга людей... Пока у нас не существует полноценной модели человека в коде - никак. Но, можно взять массив постов и ноаостей, побольше, и, опять же, тупо отдать в ручную разметку, попросив людей, помимо ответа "новость"/"не новость" указать: а) наиболее интересные цитпты из текста, б) своими словами написать комментарий - почему эта новость была им интересна/важна. Результат использовать как обучающую выборку для критерия "интересность" ) из цитат выделить круг "интересных тем", а из комментариев - еще раз круг тем, название которых не содержится в тексте явно. Учитывать, что помимо "средней интересности" (темы, интнресные всем, "среднему" человеку) будут наборы тем, интересных отдельным группам - т.е. вот темы в этой обуч.выборке  можно будет еще на кластеры разбить:)

Интересная задача)
источник

AL

Alexey Lemeshevski in Natural Language Processing
А, забыл дописать, пост чаще будет поппдать в "мнения" - по ряду разных признаков. Я к этому написал про жанры. По сути фильтр такой) если, конечно, нам не нужны и "мнения" в новостях)
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Слушайте, идиотский вопрос, какой инструмент (на python в первую очередь) может исправить это предложение: "Наполнитель длякошачьих туалетов"? Попробовал и Jamspell и pymorphy2 и в natasha поковырялся, не могу понять...
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Вроде банальность, но ни кто не видит ошибки в слитном написании слов
источник

ИК

Илья Курьянов... in Natural Language Processing
Sergey Zhuravlev
Слушайте, идиотский вопрос, какой инструмент (на python в первую очередь) может исправить это предложение: "Наполнитель длякошачьих туалетов"? Попробовал и Jamspell и pymorphy2 и в natasha поковырялся, не могу понять...
Из бесплатного, умеющего разбивать слова, знаю только про levenshtein_corrector из диппавлова:
http://docs.deeppavlov.ai/en/master/features/models/spelling_correction.html
источник

ИК

Илья Курьянов... in Natural Language Processing
Ну и если влезете в лимиты (10к реквестов в сутки), то можно Яндекс.Спеллер использовать, у него качество получше будет
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Zhuravlev
Слушайте, идиотский вопрос, какой инструмент (на python в первую очередь) может исправить это предложение: "Наполнитель длякошачьих туалетов"? Попробовал и Jamspell и pymorphy2 и в natasha поковырялся, не могу понять...
https://anyks.com/spell-checker/index.html исправляет. правда, он многое другое не исправляет...
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Ну через API или запросы не так интересно, так как теряется автономность, но все равно спасибо
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Zhuravlev
Ну через API или запросы не так интересно, так как теряется автономность, но все равно спасибо
это опен-сорс, можно себе локально поставить.
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Аа, отлично))
источник

P

Pavel in Natural Language Processing
Приветствую! Если стоит задача из текстов выбирать все ФИО и представлять в именительном падеже, то использовать следует библиотеку Natasha или Nerus?
источник

VK

Viacheslav Klimkov in Natural Language Processing
какой самый популярный фильтр обсценной лексики на питоне? ищу по гитхабу но не уверен что популярнее/точнее/лучше поддерживается
источник

YB

Yuri Baburov in Natural Language Processing
Pavel
Приветствую! Если стоит задача из текстов выбирать все ФИО и представлять в именительном падеже, то использовать следует библиотеку Natasha или Nerus?
nerus — это датасет. компоненты natasha, которые вам могут подойти: slovnet и yargy.
источник