Телеграмм чат группы natural_language_processing страница 1444

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 September 20

МЕ

Максим Ермаков... in Natural Language Processing

Привет! Мне нужно сделать NER, предполагаю использовать классификатор на pyTorch. И вопрос следующий: доки у меня уже в формате spaCy, в них уже есть BERT-эмбеддинги, однако для многотокенных entity вектор является результатом mean-пуллинга. Хочу поинтересоваться, не является ли это чем-то плохим для NER'a, или всё-таки лучше использовать потокенную разметку с BIO-like тегами?

источник

12:49пожаловаться #1

G

Gernar in Natural Language Processing

Первый раз слышу про первый способ, мне казалось что все пейперы как раз про потокенную классификацию

источник

14:57пожаловаться #2

d

dePuff in Natural Language Processing

Мне тоже интересно как из результатов пулинга вытаскиваться будут номера токенов исходника

источник

15:19пожаловаться #3

ck

cnstntn kndrtv in Natural Language Processing

Про это же писал недавно, что если НЕР делать не по токенам, идущим подряд, то непонятно, как решить. Ни датасетов, ни моделей. Я на потоке на графе это сделал.

источник

15:24пожаловаться #4

ck

cnstntn kndrtv in Natural Language Processing

Вот тут описал, в достаточно бестолковой форме https://cnstntn-kndrtv.github.io/posts/ner-and-flow/

NER и максимальный поток.

Решая задачу распознавания именованных сущностей (NER) столкнулся с такой штукой - для morphologically rich (синтетических) языков свойственен почти случайный порядок слов в предложении. При этом задачу NER решают обычно на датасетах с разметкой IOB (Begin, Inner, Out), учитывающую последовательность токенов. Например в тексте “Нижний Новгород, мать его.” будут такие теги - B-LOC, I-LOC, O, O ( Начало Location, продолжение Location и 2 слова без меток). Но, мы, носители великого и могучего, можем запросто сказать так: “Нижний, мать его, Новгород” и модель, обученная на таком датасете, выдаст B-LOC, O, O, B-LOC. Чтобы собрать Сущность НижнийНовгород, нужно придумать еще один слой, который соберет эти 2 “начала” в одну “цепочку”. Как-то так это можно представить графически:

источник

15:25пожаловаться #5

МЕ

Максим Ермаков... in Natural Language Processing

Что такое "номера токенов исходника"?

источник

15:42пожаловаться #6

МЕ

Максим Ермаков... in Natural Language Processing

У меня есть spacy Docs с размеченными Entities (руками назачены). Пока мысль была брать вектора этих entities и классифицировать их. Я предполагаю, что BERT-эмбеддинг контекстуалиирован, и информации в нём достаточно для определения типа сущности.

источник

15:43пожаловаться #7

d

dePuff in Natural Language Processing

Моя логика: даже неработающий NER разметчик должен как минимум уметь вернуть все токены исходника с пометкой, "фиг знает, что это за тип токена".
Из описания того, что есть, у меня сложилось впечатление, что с этим будут проблемы.

источник

15:52пожаловаться #8

МЕ

Максим Ермаков... in Natural Language Processing

Так а я не понимаю, почему не сделать классификатор с N выходами по количеству классов и не заморачиваться? А на вход подавать по одному вектору. Я тут не seq2seq делаю :)

источник

15:54пожаловаться #9

d

dePuff in Natural Language Processing

А каждый вектор это у нас вектор одного слова?

источник

15:55пожаловаться #10

МЕ

Максим Ермаков... in Natural Language Processing

Одной сущности. Они уже с-mean-пулены.... Аааа, дошло о чём речь, у нас же потом не будет таких gold-span'ов чтоб их тоже спулить 🤦‍♂️🤦‍♂️🤦‍♂️

источник

15:56пожаловаться #11

d

dePuff in Natural Language Processing

Я плыву, в попытке представить, что у нас есть для входа.

Ну там был документ: Ирина мыла раму.
Что за вектора у нас уже есть

источник

15:57пожаловаться #12

МЕ

Максим Ермаков... in Natural Language Processing

Всё, всё, я просто затупил. Надо реально под потокенную постановку переделывать и классифицировать токены :)

источник

15:58пожаловаться #13

G

Gernar in Natural Language Processing

что я только что прочитал...

источник

16:24пожаловаться #14

IK

Ilya Kazakov in Natural Language Processing

Ни хрена себе у тебя аватарка!!! Я прям вздрогнул... И глаз задёргался.

источник

18:49пожаловаться #15

G

Gernar in Natural Language Processing

А я его в жизни видел…

источник

19:44пожаловаться #16

IK

Ilya Kazakov in Natural Language Processing

Он был начальником моего курса (и, к сожалению, помнил моё имя-отчество :) да ещё и на кафедральном семинаре иногда приходилось лицезреть друг друга)

источник

23:25пожаловаться #17

S

Sasha in Natural Language Processing

да ладно, Кудрявцев достаточно харизматичный лектор)

лекции на кафедре даже интересно вполне читал, мне казалось)

источник

23:32пожаловаться #18

S

Sasha in Natural Language Processing

к нлп правда никакого отношения не имеет, но у меня от вашего треда ностальгия тоже случилась)

источник

23:34пожаловаться #19

IK

Ilya Kazakov in Natural Language Processing

Не спорю)) трения возникали только в силу моей (не) посещаемости. Да, действительно, совсем не к нлп. (всё аватарка виновата))

источник

23:36пожаловаться #20