Size: a a a

Natural Language Processing

2020 August 27

OS

Oleg Serikov in Natural Language Processing
каким именем в коде можно назвать то, что может быть и словом, и токеном, и предложением?
источник

AK

Anton Kazennikov in Natural Language Processing
спан?
источник

AK

Alexander Kukushkin in Natural Language Processing
Oleg Ruban
Кто-то сталкивался с проблемой установки natasha.markup? Хочу достать именованные сущности из текста (имена, адреса, даты), но при установке пишет, что нет соответствующей версий, удовлетворяющей natasha.markup. Какие для неё требования по версиям?
Речь про какую-то старую версию natasha, сейчас используется https://github.com/natasha/ipymarkup
источник

OR

Oleg Ruban in Natural Language Processing
только сегодня установил на Python 3.6.9
источник

OR

Oleg Ruban in Natural Language Processing
с этого репозитория причём
источник

OR

Oleg Ruban in Natural Language Processing
хотя, понял ошибку
источник

AK

Alexander Kukushkin in Natural Language Processing
Лена Войта публикует доп материалы https://lena-voita.github.io/nlp_course.html к ШАДовским лекциям https://github.com/yandexdataschool/nlp_course. Первый про старые добрые пословные эмбеддинги https://lena-voita.github.io/nlp_course/word_embeddings.html. Лучшая выжимка на тему из того что видел.
- Про связь классических методов типа SVD и word2vec
- Почему работает king - man + woman
источник

DK

Denis Kirjanov in Natural Language Processing
Alexander Kukushkin
Лена Войта публикует доп материалы https://lena-voita.github.io/nlp_course.html к ШАДовским лекциям https://github.com/yandexdataschool/nlp_course. Первый про старые добрые пословные эмбеддинги https://lena-voita.github.io/nlp_course/word_embeddings.html. Лучшая выжимка на тему из того что видел.
- Про связь классических методов типа SVD и word2vec
- Почему работает king - man + woman
так Аня Потапенко в 2018 еще показала, что king-man+woman на самом деле начетничество и не работает, это было в курсе от вышки
источник

AK

Alexander Kukushkin in Natural Language Processing
Denis Kirjanov
так Аня Потапенко в 2018 еще показала, что king-man+woman на самом деле начетничество и не работает, это было в курсе от вышки
источник

DK

Denis Kirjanov in Natural Language Processing
Переслано от Denis Kirjanov
Привет!
Дополз до пары, где ты рассказываешь про w2v и проблемы с аналогиями. Спасибо, очень ценно, только можешь пояснить — какой алгоритм был бейзлайном по сравнению с w2v, когда мы определяем, лучше или хуже бейзлайна он работает?)
источник

DK

Denis Kirjanov in Natural Language Processing
Переслано от Anna
Да, могу. Они смотрели на ближайшее слово к каждому из трёх данных и если хотя бы что-то из этого было правильным ответом- засчитывали
источник

DK

Denis Kirjanov in Natural Language Processing
Переслано от Anna
То есть тут был читинг в том что они на самом деле подсматривали в ответы. При этом это все равно показывает что арифметические операции не супер важны. А дело только в том повезет или не повезет иметь таргетное слово близко к женщине или королю, или не повезет.
источник

DK

Denis Kirjanov in Natural Language Processing
потерял ссылку, но где-то были ее слайды про то, почему в общем это нечестная операция
источник

OR

Oleg Ruban in Natural Language Processing
в прошлых версиях можно было выделенные слова в словарь закинуть, сейчас есть эта возможность? Если да, то подскажите, пожалуйста, как?
источник

C

Constantin in Natural Language Processing
Мне нужно разделять текст в предложения. Я посмотрел наиболее популярные модели: razdel, rusenttokenize. Судя по таблице они имею самую высокую точность, но почему то они ломаются если в тексте новое предложение начать с маленькой буквы ... В интернете, особенно в соц. сетях, люди редко используют заглавные буквы... а обрабатывать эти данные хотелось бы.

Что тут можно поделать?
источник

N

Natalia in Natural Language Processing
убрать пунктуацию и перетренировать без неё? ну если глобально, то проблема в этом во многом
источник

N

Natalia in Natural Language Processing
источник

C

Constantin in Natural Language Processing
но здесь речь ведь о регистре букв, вот пример:

'Эта шоколадка за 400р. ничего из себя не представляла. Артём решил больше не ходить в этот магазин' - диппавлов работает

'Эта шоколадка за 400р. ничего из себя не представляла. артём решил больше не ходить в этот магазин' - диппавлов НЕ работает(
источник

C

Constantin in Natural Language Processing
Может тут связь, которую я не замечаю?
источник

DP

Defragmented Panda in Natural Language Processing
капитализация
источник