Size: a a a

Natural Language Processing

2021 August 10

E

Elena in Natural Language Processing
а если в контексте? вообще у меня ощущение, что на английском это не очень звучит, было бы естественнее сказать Smoking is bad for your health
источник

AP

Anna Pshenichnikova in Natural Language Processing
To определяет как PART, вариантов не даёт
источник

AP

Anna Pshenichnikova in Natural Language Processing
Наверное естественнее, просто хочется уметь такие предложения с инфинитивом обрабатывать тоже. Если перед этой фразой добавить Doctors say that, то smoke уже верно определяется как VERB
источник

E

Elena in Natural Language Processing
Ну вот и ответ :)
источник

AP

Anna Pshenichnikova in Natural Language Processing
Получается, без контекста не особо стоит обращать внимание на такие ошибки?
источник

E

Elena in Natural Language Processing
зависит от того, где и как вы будете использовать POS tagging
источник

N

Natalia in Natural Language Processing
два вопроса: 1) какая модель spacy, 2) почему бы не проверить udpipe и stanza, или там что-то жёстко на фишки spacy завязано?
источник

AP

Anna Pshenichnikova in Natural Language Processing
1. Spacy 3.1.1, модель en_core_web_sm, может кстати lg попробовать.
2. Можно, просто пока работаю со spacy и хотела про неё понять.
источник

N

Natalia in Natural Language Processing
ого, а теги там UDшные вообще?

короче, udpipe ewt вполне справляется с таким, так что опять вопросы к авторам моделей spacy
источник

N

Natalia in Natural Language Processing
не люблю их прежде всего за то, что не всегда понятно, чё за данные
источник

N

Natalia in Natural Language Processing
в udpipe и stanza очевидно, откуда данные, и ясно, что это конкретные трибанки, которые поддерживаются (по крайней мере самые большие) + даже ясно, куда issues писать
источник

AE

Anton Eryomin in Natural Language Processing
Коллеги, а насколько "рационально" перед обучением модели выкидывать вообще все знаки припинания? т.е. условно превращать предложение натурально в набор слов и всё
источник

E

Elena in Natural Language Processing
какой модели? для чего?
источник

AE

Anton Eryomin in Natural Language Processing
для поиска ближайших текстов
источник

E

Elena in Natural Language Processing
а сама модель какая?
источник

E

Elena in Natural Language Processing
если бертоподобная, то не надо удалять знаки препинания, они важны
источник

AE

Anton Eryomin in Natural Language Processing
пока это буедт w2v, потом уже буду смотреть в более сложные вещи типа берта
источник

AE

Anton Eryomin in Natural Language Processing
т.е. мне нужно в начале какой-то mvp бахнуть
источник

E

Elena in Natural Language Processing
если fasttext или подобная, то лучше удалить знаки препинания
источник

AE

Anton Eryomin in Natural Language Processing
Хорошо, я тогда просто это сразу заложу. Спасибо большое!
источник