Телеграмм чат группы natural_language_processing страница 863

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2120 membersпожаловаться на группу

2020 October 08

AL

Alexey Lemeshevski in Natural Language Processing

Михаил Притугин

Я так и пытался думать
Пытался понять как моя "нейросеть" в голове определяет важно/не важно.
NER конечно помогает
Выделяю личностей, например, считаю кол-во их упоминаний
Если личность часто упоминалась в текстах - то значит она связанна с какой-то важной новостью
Также пытался сделать с организациями (из коробки работает в natasha)
Но:
1) Полнота маленькая (не во всех новостях фигурируют личности)
2) Качество NER на сырых текстах, парсинг которых иногда барахлит, не самое лучшее

Так круто же ) То, что вы пишете в 1 и 2 - это и есть результат ) Можно же просто идти дальше:
1) теперь выделить новости без личностей; посмотреть внимательно только на них, и понять - какие ещё есть признаки
2) улучшать качество парсинга ) я давно занимаюсь парсингами - качества всегда можно улучшить ) ...либо подумать, как ещё собрать словарь именованных сущностей (может быть на других текстах) :)

источник

14:40пожаловаться #1

AO

Alex Orgish in Natural Language Processing

Понятие важно/не важно можно трактовать как определение хайпа. Чем больше статей на данную тематику за последний период, тем тема важнее.

источник

14:46пожаловаться #2

МП

Михаил Притугин... in Natural Language Processing

Тогда
а) нужно смысловое расстояние между двумя текстами
б) сравнить каждый с каждым нереально

источник

14:47пожаловаться #3

МП

Михаил Притугин... in Natural Language Processing

Я пытался искать дубли
Гипотеза: чем больше дублей у поста - тем он важнее

источник

14:47пожаловаться #4

AL

Alexey Lemeshevski in Natural Language Processing

Понятие важно/не важно можно трактовать как определение хайпа. Чем больше статей на данную тематику за последний период, тем тема важнее.

Либо на ее продвижение потрачено больше денег)

источник

14:48пожаловаться #5

МП

Михаил Притугин... in Natural Language Processing

а) много спама
б) посчитать нереально при большом кол-ве текстов

источник

14:48пожаловаться #6

SZ

Sasha Zhu in Natural Language Processing

см .pad_sequence, pack_padded_sequence и подобные, там в доке про pytorch LSTM должно про них упоминаться

я могу в лс проконсультироваться?

источник

15:00пожаловаться #7

AL

Alexey Lemeshevski in Natural Language Processing

Я навскидку вот о чем подумал:
1) новости могут быть разного масштаба и тематики. Масштаб: мировые, по стране, по региону, по городу, по району, по жк, по дому, по квартире или отдельной семье/мини-сообществу (пример с кошкой). Тематики: политические (личности), экономика (цифры)... По жанру (возможно это не так называется): событие, рассуждение, мнение, исследование... Можно залезть в учебники для сми/журналстов и посмотреть, какие еще есть классификации. И подумать, нужны ли вам в задаче воооообще все новости, или только отдельные виды/типы/жанры. Если отдельные - то разметить тексты еще и по этим классификациям (руками/толокой) и признаки далее искать более узко.

2) выявить "интересность" для большого круга людей... Пока у нас не существует полноценной модели человека в коде - никак. Но, можно взять массив постов и ноаостей, побольше, и, опять же, тупо отдать в ручную разметку, попросив людей, помимо ответа "новость"/"не новость" указать: а) наиболее интересные цитпты из текста, б) своими словами написать комментарий - почему эта новость была им интересна/важна. Результат использовать как обучающую выборку для критерия "интересность" ) из цитат выделить круг "интересных тем", а из комментариев - еще раз круг тем, название которых не содержится в тексте явно. Учитывать, что помимо "средней интересности" (темы, интнресные всем, "среднему" человеку) будут наборы тем, интересных отдельным группам - т.е. вот темы в этой обуч.выборке можно будет еще на кластеры разбить:)

Интересная задача)

источник

15:07пожаловаться #8

AL

Alexey Lemeshevski in Natural Language Processing

А, забыл дописать, пост чаще будет поппдать в "мнения" - по ряду разных признаков. Я к этому написал про жанры. По сути фильтр такой) если, конечно, нам не нужны и "мнения" в новостях)

источник

15:09пожаловаться #9

SZ

Sergey Zhuravlev in Natural Language Processing

Слушайте, идиотский вопрос, какой инструмент (на python в первую очередь) может исправить это предложение: "Наполнитель длякошачьих туалетов"? Попробовал и Jamspell и pymorphy2 и в natasha поковырялся, не могу понять...

источник

19:35пожаловаться #10

SZ

Sergey Zhuravlev in Natural Language Processing

Вроде банальность, но ни кто не видит ошибки в слитном написании слов

источник

19:35пожаловаться #11

ИК

Илья Курьянов... in Natural Language Processing

Sergey Zhuravlev

Слушайте, идиотский вопрос, какой инструмент (на python в первую очередь) может исправить это предложение: "Наполнитель длякошачьих туалетов"? Попробовал и Jamspell и pymorphy2 и в natasha поковырялся, не могу понять...

Из бесплатного, умеющего разбивать слова, знаю только про levenshtein_corrector из диппавлова:
http://docs.deeppavlov.ai/en/master/features/models/spelling_correction.html

источник

19:57пожаловаться #12

ИК

Илья Курьянов... in Natural Language Processing

Ну и если влезете в лимиты (10к реквестов в сутки), то можно Яндекс.Спеллер использовать, у него качество получше будет

источник

20:05пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Sergey Zhuravlev

Слушайте, идиотский вопрос, какой инструмент (на python в первую очередь) может исправить это предложение: "Наполнитель длякошачьих туалетов"? Попробовал и Jamspell и pymorphy2 и в natasha поковырялся, не могу понять...

https://anyks.com/spell-checker/index.html исправляет. правда, он многое другое не исправляет...

Spell-Checker Online - ANYKS

Официальный сайт АНИКС

источник

20:09пожаловаться #14

SZ

Sergey Zhuravlev in Natural Language Processing

Ну через API или запросы не так интересно, так как теряется автономность, но все равно спасибо

источник

20:11пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

Sergey Zhuravlev

Ну через API или запросы не так интересно, так как теряется автономность, но все равно спасибо

это опен-сорс, можно себе локально поставить.

источник

20:12пожаловаться #16

SZ

Sergey Zhuravlev in Natural Language Processing

Аа, отлично))

источник

20:12пожаловаться #17

P

Pavel in Natural Language Processing

Приветствую! Если стоит задача из текстов выбирать все ФИО и представлять в именительном падеже, то использовать следует библиотеку Natasha или Nerus?

источник

21:25пожаловаться #18

VK

Viacheslav Klimkov in Natural Language Processing

какой самый популярный фильтр обсценной лексики на питоне? ищу по гитхабу но не уверен что популярнее/точнее/лучше поддерживается

источник

21:32пожаловаться #19

YB

Yuri Baburov in Natural Language Processing

Приветствую! Если стоит задача из текстов выбирать все ФИО и представлять в именительном падеже, то использовать следует библиотеку Natasha или Nerus?

nerus — это датасет. компоненты natasha, которые вам могут подойти: slovnet и yargy.

источник

21:45пожаловаться #20