Size: a a a

Natural Language Processing

2021 February 01

FF

Futorio Franklin in Natural Language Processing
и мне пригодилась эта модель
источник

N

Natalia in Natural Language Processing
так что на самом деле зависит от задачи + того, хочется побыстрее/полегче модель или всё равно
источник

FF

Futorio Franklin in Natural Language Processing
Futorio Franklin
Я как раз в рамках хакатона собирал небольшой датасет с выделенными подстроками дат
Самый интересный пример это: "приблизительно между вечером пятницы 10 августа до полудня субботы 11 августа"
источник

BS

Bogdan Salyp in Natural Language Processing
Сравнил вместе SpaCy ru_core_news_lg и DeepPavlov ner_rus_bert
источник

BS

Bogdan Salyp in Natural Language Processing
Кажется их лучше использовать вместе
источник

BS

Bogdan Salyp in Natural Language Processing
Вот пара примеров

Original: Мой CVV код - 322
DeepPavlov:  
SpaCy:  CVV 322

Original: Аминокислота CH5H10C18 неспособна работать с раствором соды и железа, заявляют индонезийские учёные Биба и Боба
DeepPavlov:  Биба Боба
SpaCy:  CH5H10C18 Биба Боба

Original: После стремительного взлёта Bitcoin в начале января чуть ли не до 40 тысяч долларов главная криптовалюта мира резко просела до уровня 28 тысяч, а потом долго колебалась в районе 32—34 тысяч, всё никак не решаясь вновь подобраться к психологической отметке.
DeepPavlov:  
SpaCy:  Bitcoin 40 28 32—34

Original: Крайняя северная точка Крыма расположена на Перекопском перешейке, крайняя южная — мыс Николая, крайняя западная — мыс Прибойный (Кара-Мрун) на Тарханкуте, крайняя восточная — мыс Фонарь на Керченском полуострове.
DeepPavlov:  Крыма Перекопском перешейке Кара - Мрун Тарханкуте Керченском полуострове
SpaCy:  Крыма Николая Кара - Мрун Тарханкуте Фонарь
источник

BS

Bogdan Salyp in Natural Language Processing
Интересно, что ner_ontonotes_bert_mult от диппавлова правильно помечал некоторые русские слова, которые не разметил ner_rus_bert
Например, слово Фонарь в последнем
источник

BS

Bogdan Salyp in Natural Language Processing
И числа в предложении про биткоин
источник

BS

Bogdan Salyp in Natural Language Processing
Очень возможно, что я не совсем правильно использую оба инструмента))
источник

BS

Bogdan Salyp in Natural Language Processing
Да, в SpaCy я сделал не ner, а  pos_
Сейчас более правильно сделаю и сравню
источник

N

Natalia in Natural Language Processing
ага, в pos это как имена собственные
источник

BS

Bogdan Salyp in Natural Language Processing
Вот тут в итоге нормально сравнил
Получается, что для определения ключевых слов без дообучения нужно делать PoS + NER
источник

BS

Bogdan Salyp in Natural Language Processing
Original: Гидрокарбонатсульфатная суспензия нейроглициального Самсунг QI-кодирования аутодифферентна квазитурбоспиновому CRISPR-Cas9 LGBTQ2S+ Физтех даугшифтингу на Монзе.
DeepPavlov PoS:  Самсунг QI-кодирования LGBTQ2S+ Физтех Монзе
DeepPavlov NER:  
SpaCy NER:  Монзе
SpaCy PoS:  Самсунг QI - кодирования CRISPR - Cas9 LGBTQ2S+ Физтех Монзе

щикарно
источник
2021 February 02

N

Natalia in Natural Language Processing
нууу вообще есть логика, что в заголовках синтаксис не такой, поэтому всё контекстное косячит
источник

ПП

Павлик Павлик... in Natural Language Processing
ребят.
кто то видел в природе документацию на natasha?
мне надо не просто извлечь сущности, а еще посмотреть их, какие то встроенные функции вызвать.
убрать части речи.
я ничего по наташе не могу найти.
есть кто то, кто сталкивался с такой же проблемой
источник

ПП

Павлик Павлик... in Natural Language Processing
вот с nltk вроде все более менее понятно.
там есть доки, а вот на наташу кроме гитхаба нет ничего толкового и адекватного.
источник

AK

Alexander Kukushkin in Natural Language Processing
источник

N

Natalia in Natural Language Processing
Павлик Павлик
ребят.
кто то видел в природе документацию на natasha?
мне надо не просто извлечь сущности, а еще посмотреть их, какие то встроенные функции вызвать.
убрать части речи.
я ничего по наташе не могу найти.
есть кто то, кто сталкивался с такой же проблемой
так части речи вроде бы даже в примере ner не вызываются, только спан + тип сущности
источник

ПП

Павлик Павлик... in Natural Language Processing
только примеры есть.
хотелось бы какой ни будь апи или хотя бы список методов и функций...
источник

AK

Alexander Kukushkin in Natural Language Processing
источник