Size: a a a

Natural Language Processing

2020 September 28

YB

Yuri Baburov in Natural Language Processing
Anton Eryomin
Т.е. по сути разметка все равно понадобится да?
смотря какие документы и как напишешь всё это. в принципе, кластеризация даст тебе профессию человека, но не очень чёткую (будет или много мелких похожих кластеров, или нечёткие границы между кластерами).
источник

AE

Anton Eryomin in Natural Language Processing
а вот если мы говорим про определение секции в документе, тут как лучше смотреть ?
источник

AE

Anton Eryomin in Natural Language Processing
в принципе банальное разделение по ключевым словам, может дать неплохие результаты
источник

AE

Anton Eryomin in Natural Language Processing
т.е. искать слова в тексте типа - Навыки, Скилы, Умения и прочие синонимы
источник

YB

Yuri Baburov in Natural Language Processing
да, можно секцию не искать, если NER нормально выделяет ключевые слова.
можно и вообще не выделять ключевые слова, а выделять все слова и все пары слов.
тут немного всё ещё зависит от того, в каком виде вы хотите чтобы это было на выходе.
например, если вы хотите, чтобы на выходе был список ключевых слов и в нём не было лишних слов, то нужен NER и в идеале определение секций, а если вам пофиг на лишние слова или 10% лишних слов для вас нормально, то можно на чём-то сэкономить.
источник

YB

Yuri Baburov in Natural Language Processing
Anton Eryomin
а вот если мы говорим про определение секции в документе, тут как лучше смотреть ?
можно ещё смотреть скопление ключевых слов и определять границы этого скопления.
это плохо сработает, если у человека ключевые слова перемежаются с описанием проектов, в остальных случаях — нормально.
источник

AP

Aleksandr Perevalov in Natural Language Processing
Всем привет, подскажите существуют ли датасеты для задачи Named Entity Linking на русском языке?
источник

RS

Roman Samarev in Natural Language Processing
Anton Eryomin
т.е. искать слова в тексте типа - Навыки, Скилы, Умения и прочие синонимы
источник

RS

Roman Samarev in Natural Language Processing
Если использовать какой-то общий NER на резюме, получите много мусора. Не уверен, что задача решаема без словаря должностных обязанностей.
источник

RS

Roman Samarev in Natural Language Processing
Anton Eryomin
т.е. искать слова в тексте типа - Навыки, Скилы, Умения и прочие синонимы
источник

AE

Anton Eryomin in Natural Language Processing
Спасибо большое за ссылки
источник

RS

Roman Samarev in Natural Language Processing
Последняя статья - как раз с демонстрацией ужасных результатов по навыкам, если словари типа ONET не используются
источник

YB

Yuri Baburov in Natural Language Processing
Вообще, начинайте всегда с попыток сделать систему на правилах из готовых компонентов и за один день. Возьмите при этом несколько разных по структуре и типу резюме. И тогда сами поймёте, какие проблемы есть и как их лучше решать.
источник

AE

Anton Eryomin in Natural Language Processing
Спасибо большое за совет!!!
источник

AO

Alex Orgish in Natural Language Processing
Aleksandr Perevalov
Всем привет, подскажите существуют ли датасеты для задачи Named Entity Linking на русском языке?
Если сущности берутся из wikidata, то можно самому попробовать сделать датасет из wikipedia. Самая большая проблема будет в entity disambiguation, причем не тогда, когда нужно выбирать из нескольких вариантов правильный (а иногда вариантов 1000+ для одной сущности), а когда из всех вариантов правильного нет.
источник

AP

Aleksandr Perevalov in Natural Language Processing
Alex Orgish
Если сущности берутся из wikidata, то можно самому попробовать сделать датасет из wikipedia. Самая большая проблема будет в entity disambiguation, причем не тогда, когда нужно выбирать из нескольких вариантов правильный (а иногда вариантов 1000+ для одной сущности), а когда из всех вариантов правильного нет.
Идея хорошая. Спасибо. Но все таки хотелось бы знать есть ли для этой задачи какой-либо бенчмарк на русском
источник

H

Himanshu in Natural Language Processing
A language is a wonderful tool of communication – its powered the human race for centuries and continues to be at the heart of our culture.

I've tried to work with NLP for Indian Language (Hindi).  
So I've made a web app using Streamlit and INLTK (a library used for NLP task mainly for Indian Languages).
In which we can
1.) Tokenize the sentences in the given text
2.) Find the Similarity between two words
3.) Word predictor
4.) Generate similar words from a given word

Youtube link:- https://youtu.be/C2gXYRR7-HY
источник
2020 September 29

AK

Alexander Kukushkin in Natural Language Processing
Лена Войта публикует доп материалы https://lena-voita.github.io/nlp_course.html к ШАДовским лекциям https://github.com/yandexdataschool/nlp_course. Второй пост про классификацию https://lena-voita.github.io/nlp_course/text_classification.html. Полезный конспект, проходит по верхам, понять хорошо о чём речь, если заранее всё это не знал, кажется, не получится. Современные методы с предобученными языковыми модели не упоминает, будет в следующих сериях.
- Сравнение, противопоставление наивного Байеса и логистической регрессии. Про то как прокачать эти базовые методы есть https://www.aclweb.org/anthology/P12-2018.pdf
- Вектора в голове сетки смотрят в сторону классов (см. картинку)
- Аналогия между свёртками для картинок и текста
- Аналогия аугментации для картинок и текста
Короче говоря, понравилось меньше чем первый пост про эмбеддинги https://lena-voita.github.io/nlp_course/word_embeddings.html, но тоже полезно #voita
источник

AE

Anton Eryomin in Natural Language Processing
Спасибо за ссылки!
источник

AK

Alexander Kukushkin in Natural Language Processing
И третий доступный сегодня пост из курса про языковые модели https://lena-voita.github.io/nlp_course/language_modeling.html. Без технических деталий, без современных моделей, хороший конспект про LM до трансформеров. #voita
- Пулинг теряет инфу о позиции слова
- Интуиция про перплексию
- Веса в голове сетки могут повторять таблицу с эмбеддингами
источник