Size: a a a

Natural Language Processing

2021 September 20

МЕ

Максим Ермаков... in Natural Language Processing
Привет! Мне нужно сделать NER, предполагаю использовать классификатор на pyTorch. И вопрос следующий: доки у меня уже в формате spaCy, в них уже есть BERT-эмбеддинги, однако для многотокенных entity вектор является результатом mean-пуллинга. Хочу поинтересоваться, не является ли это чем-то плохим для NER'a, или всё-таки лучше использовать потокенную разметку с BIO-like тегами?
источник

G

Gernar in Natural Language Processing
Первый раз слышу про первый способ, мне казалось что все пейперы как раз про потокенную классификацию
источник

d

dePuff in Natural Language Processing
Мне тоже интересно как из результатов пулинга вытаскиваться будут номера токенов исходника
источник

ck

cnstntn kndrtv in Natural Language Processing
Про это же писал недавно, что если НЕР делать не по токенам, идущим подряд, то непонятно, как решить. Ни датасетов, ни моделей. Я на потоке на графе это сделал.
источник

ck

cnstntn kndrtv in Natural Language Processing
Вот тут описал, в достаточно бестолковой форме https://cnstntn-kndrtv.github.io/posts/ner-and-flow/
источник

МЕ

Максим Ермаков... in Natural Language Processing
Что такое "номера токенов исходника"?
источник

МЕ

Максим Ермаков... in Natural Language Processing
У меня есть spacy Docs с размеченными Entities (руками назачены). Пока мысль была брать вектора этих entities и классифицировать их. Я предполагаю, что BERT-эмбеддинг контекстуалиирован, и информации в нём достаточно для определения типа сущности.
источник

d

dePuff in Natural Language Processing
Моя логика: даже неработающий NER разметчик должен как минимум уметь вернуть все токены исходника с пометкой, "фиг знает, что это за тип токена".
Из описания того, что есть, у меня сложилось впечатление, что с этим будут проблемы.
источник

МЕ

Максим Ермаков... in Natural Language Processing
Так а я не понимаю, почему не сделать классификатор с N выходами по количеству классов и не заморачиваться? А на вход подавать по одному вектору. Я тут не seq2seq делаю :)
источник

d

dePuff in Natural Language Processing
А каждый вектор это у нас вектор одного слова?
источник

МЕ

Максим Ермаков... in Natural Language Processing
Одной сущности. Они уже с-mean-пулены.... Аааа, дошло о чём речь, у нас же потом не будет таких gold-span'ов чтоб их тоже спулить 🤦‍♂️🤦‍♂️🤦‍♂️
источник

d

dePuff in Natural Language Processing
Я плыву, в попытке представить, что у нас есть для входа.

Ну там был документ: Ирина мыла раму.
Что за вектора у нас уже есть
источник

МЕ

Максим Ермаков... in Natural Language Processing
Всё, всё, я просто затупил. Надо реально под потокенную постановку переделывать и классифицировать токены :)
источник

G

Gernar in Natural Language Processing
что я только что прочитал...
источник

IK

Ilya Kazakov in Natural Language Processing
Ни хрена себе у тебя аватарка!!! Я прям вздрогнул... И глаз задёргался.
источник

G

Gernar in Natural Language Processing
А я его в жизни видел…
источник

IK

Ilya Kazakov in Natural Language Processing
Он был начальником моего курса (и, к сожалению, помнил моё имя-отчество :) да ещё и на кафедральном семинаре иногда приходилось лицезреть друг друга)
источник

S

Sasha in Natural Language Processing
да ладно, Кудрявцев достаточно харизматичный лектор)

лекции на кафедре даже интересно вполне читал, мне казалось)
источник

S

Sasha in Natural Language Processing
к нлп правда никакого отношения не имеет, но у меня от вашего треда ностальгия тоже случилась)
источник

IK

Ilya Kazakov in Natural Language Processing
Не спорю)) трения возникали только в силу моей (не) посещаемости. Да, действительно, совсем не к нлп.  (всё аватарка виновата))
источник