Size: a a a

Natural Language Processing

2021 June 29

ДС

Дмитрий Симаков... in Natural Language Processing
Кстати. А там были норм результаты с трансформером, который размер последовательности ужимал энкодером? Типо юнета.
источник
2021 June 30

SS

Sergey Sikorskiy in Natural Language Processing
Вопрос к лингвистам по поводу Universal Dependencies.
Откуда взялась такая схема аннотирования (построения дерева) (как в UD)?
В частности, интересны предлоги и отрицание.
Почему предлог подчиняется существительному?
У этого есть какое-то "научное" обоснование?
В других схемах (немецкий HDT (не конвертированный), НКРЯ) это не так.
Насколько я понимаю, существуют разные схемы аннотирования/построения дерева зависимостей.
Из того, что мне встретилось (помимо HDT) - Deep Dependency Graph (DDG) (не совсем понятно кто им пользуется)
Существует ли какая-то онтология Dependency Graph?
Есть ли работы сравнивающие различные варианты Dependency Graph?

TIA
источник

SS

Sergey Sikorskiy in Natural Language Processing
Вот пример.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Вообще говоря, я бы назвал дерево в этом примере бредом.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Вот это дерево в НКРЯ: https://ruscorpora.ru/syntax/2003/anketa_14.pdf
источник

N

Natalia in Natural Language Processing
потому что предлог несёт меньше значения, чем существительное или его аналог, и больше похож на функциональную связанную морфему типа падежной; более того, исторически падежи порой из таких "предлогов" и возникают
источник

N

Natalia in Natural Language Processing
почему так? потому что UD задумывался уже как многоязычный проект, в отличие от трибанков для отдельных языков
источник

SS

Sergey Sikorskiy in Natural Language Processing
У меня есть не хорошее впечатление, что из UD-дерева восстановить предложение обратно уже не возможно …
источник

N

Natalia in Natural Language Processing
вообще я как лингвист немножко зверею от формулировки со словом "бред" по отношению к формальному конструкту, коим является модель описания синтаксиса, где всегда существует некоторое натягивание совы на глобус
источник

N

Natalia in Natural Language Processing
эээ куда восстановить
источник

N

Natalia in Natural Language Processing
все узлы пронумерованы, это графчик
источник

N

Natalia in Natural Language Processing
куда не восстановить
источник

SS

Sergey Sikorskiy in Natural Language Processing
Есть UD-дерево. Нодо по нему построить предложение (без учета всего пронумерованного)
источник

SS

Sergey Sikorskiy in Natural Language Processing
Предположим, я построил это самое дерево. Мне надо его линеаризовать.
источник

N

Natalia in Natural Language Processing
ещё раз: UD — стандарт, созданный для создания УНИВЕРСАЛЬНЫХ парсеров

свои интуиции на уровне "нас в школе учили не так" можно забыть (в конце концов, а вы всегда можете доказать, почему именно школьный анализ лучше? потому что "так принято"?)
источник

N

Natalia in Natural Language Processing
ну так в conllu инфы побольше будет, чем там тупо на картинке
источник

SS

Sergey Sikorskiy in Natural Language Processing
То, что сделано с “Ровно в десять часов”, назвать другим словом язык не поворачивается.
источник

N

Natalia in Natural Language Processing
потому что вы за рамки русского языка глядеть не привыкли, сорри
источник

SS

Sergey Sikorskiy in Natural Language Processing
conllu - это просто способ сериализации.
Я рассматриваю это дерево как результат синт-анализа. Эти деревья я могу трансформировать, генерировать, и т.д.
никакого conllu там не будет.
источник

N

Natalia in Natural Language Processing
ну то есть вы хотите выкинуть инфу о последовательности токенов, а потом заявляете, что дерево не развернуть?
источник