Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

1944 membersпожаловаться на группу

2020 August 27

Oleg Serikov in Natural Language Processing

каким именем в коде можно назвать то, что может быть и словом, и токеном, и предложением?

источник

16:27пожаловаться #1

Anton Kazennikov in Natural Language Processing

спан?

источник

16:35пожаловаться #2

Alexander Kukushkin in Natural Language Processing

Oleg Ruban

Кто-то сталкивался с проблемой установки natasha.markup? Хочу достать именованные сущности из текста (имена, адреса, даты), но при установке пишет, что нет соответствующей версий, удовлетворяющей natasha.markup. Какие для неё требования по версиям?

Речь про какую-то старую версию natasha, сейчас используется https://github.com/natasha/ipymarkup

GitHub

natasha/ipymarkup

NER, syntax markup visualizations. Contribute to natasha/ipymarkup development by creating an account on GitHub.

источник

16:37пожаловаться #3

Oleg Ruban in Natural Language Processing

Alexander Kukushkin

Речь про какую-то старую версию natasha, сейчас используется https://github.com/natasha/ipymarkup

GitHub

natasha/ipymarkup

NER, syntax markup visualizations. Contribute to natasha/ipymarkup development by creating an account on GitHub.

только сегодня установил на Python 3.6.9

источник

16:39пожаловаться #4

Oleg Ruban in Natural Language Processing

с этого репозитория причём

источник

16:40пожаловаться #5

Oleg Ruban in Natural Language Processing

хотя, понял ошибку

источник

16:41пожаловаться #6

Alexander Kukushkin in Natural Language Processing

Лена Войта публикует доп материалы https://lena-voita.github.io/nlp_course.html к ШАДовским лекциям https://github.com/yandexdataschool/nlp_course. Первый про старые добрые пословные эмбеддинги https://lena-voita.github.io/nlp_course/word_embeddings.html. Лучшая выжимка на тему из того что видел.
- Про связь классических методов типа SVD и word2vec
- Почему работает king - man + woman

lena-voita.github.io

NLP Course | For You

Natural Language Processing course with interactive lectures-blogs, research thinking exercises and related papers with summaries. Also a lot of fun inside!

источник

16:48пожаловаться #7

Denis Kirjanov in Natural Language Processing

Alexander Kukushkin

lena-voita.github.io

NLP Course | For You

Natural Language Processing course with interactive lectures-blogs, research thinking exercises and related papers with summaries. Also a lot of fun inside!

так Аня Потапенко в 2018 еще показала, что king-man+woman на самом деле начетничество и не работает, это было в курсе от вышки

источник

16:50пожаловаться #8

Alexander Kukushkin in Natural Language Processing

Denis Kirjanov

Вот http://proceedings.mlr.press/v97/allen19a/allen19a.pdf

источник

16:52пожаловаться #9

Denis Kirjanov in Natural Language Processing

Переслано от Denis Kirjanov

Привет!
Дополз до пары, где ты рассказываешь про w2v и проблемы с аналогиями. Спасибо, очень ценно, только можешь пояснить — какой алгоритм был бейзлайном по сравнению с w2v, когда мы определяем, лучше или хуже бейзлайна он работает?)

источник

16:57пожаловаться #10

Denis Kirjanov in Natural Language Processing

Переслано от Anna

Да, могу. Они смотрели на ближайшее слово к каждому из трёх данных и если хотя бы что-то из этого было правильным ответом- засчитывали

источник

16:57пожаловаться #11

Denis Kirjanov in Natural Language Processing

Переслано от Anna

То есть тут был читинг в том что они на самом деле подсматривали в ответы. При этом это все равно показывает что арифметические операции не супер важны. А дело только в том повезет или не повезет иметь таргетное слово близко к женщине или королю, или не повезет.

источник

16:57пожаловаться #12

Denis Kirjanov in Natural Language Processing

потерял ссылку, но где-то были ее слайды про то, почему в общем это нечестная операция

источник

16:57пожаловаться #13

Oleg Ruban in Natural Language Processing

в прошлых версиях можно было выделенные слова в словарь закинуть, сейчас есть эта возможность? Если да, то подскажите, пожалуйста, как?

источник

16:59пожаловаться #14

Constantin in Natural Language Processing

Мне нужно разделять текст в предложения. Я посмотрел наиболее популярные модели: razdel, rusenttokenize. Судя по таблице они имею самую высокую точность, но почему то они ломаются если в тексте новое предложение начать с маленькой буквы ... В интернете, особенно в соц. сетях, люди редко используют заглавные буквы... а обрабатывать эти данные хотелось бы.

Что тут можно поделать?

источник

17:28пожаловаться #15

Natalia in Natural Language Processing

убрать пунктуацию и перетренировать без неё? ну если глобально, то проблема в этом во многом

источник

17:33пожаловаться #16

Natalia in Natural Language Processing

1809.00070.pdf

(87.64 Кб)

источник

17:33пожаловаться #17

Constantin in Natural Language Processing

но здесь речь ведь о регистре букв, вот пример:

'Эта шоколадка за 400р. ничего из себя не представляла. Артём решил больше не ходить в этот магазин' - диппавлов работает

'Эта шоколадка за 400р. ничего из себя не представляла. артём решил больше не ходить в этот магазин' - диппавлов НЕ работает(

источник

17:40пожаловаться #18

Constantin in Natural Language Processing

Может тут связь, которую я не замечаю?

источник

17:41пожаловаться #19

Defragmented Panda in Natural Language Processing

капитализация

источник

17:41пожаловаться #20