Size: a a a

Natural Language Processing

2021 June 30

SS

Sergey Sikorskiy in Natural Language Processing
Не хочется пользоваться бессмысленными формализмами 🙂
источник

N

Natalia in Natural Language Processing
а, то есть я тут просто так распиналась и объясняла, в чём фишка UD
источник

N

Natalia in Natural Language Processing
а зачем вы тогда спрашиваете?
источник

N

Natalia in Natural Language Processing
к слову, "группы предлога" (где вершина — предлог) — это тот ещё англоцентризм
источник

N

Natalia in Natural Language Processing
и в хомскианском синтаксисе и нашем "классическом" с корнями в греческом и латыни европоцентричности слишком много
источник

N

Natalia in Natural Language Processing
и да, fun fact про русский:
кажется, что в "десять часов" главное слово — "десять"? а если "к десяти часам"?
источник

SS

Sergey Sikorskiy in Natural Language Processing
В данном случае речь идет не о порядке слов, а о потере зависимостей. Дерево искуственно линеаризуют. Это я про “Ровно в десять часов”.
источник

EE

E E in Natural Language Processing
А как в принципе по дереву восстановить порядок слов можно? Он же свободный,  переставить подлежащее и дополнение местами - дерево же то же самое останется?
источник

N

Natalia in Natural Language Processing
ничего, что там уже внезапно дательный падеж и на числительном, и на существительном?
источник

SS

Sergey Sikorskiy in Natural Language Processing
Есть некий общепринятый порядок слов. В русском он достаточно свободный, но, все же, есть более предпочтительный. Даже в английском можно немного поменять порядок слов. Есть такой персонаж из фантастических фильмов - мастер Йода, он говорит на оооочень странном английском, который, тем не менее, носители понимают.
Можно взять английское дерево и линеаризовать его так, как сказал бы мастер Йода …
источник

SS

Sergey Sikorskiy in Natural Language Processing
порядок токенов до какой-то степени восстанавливаем. связи между токенами - это зависимости. ошибка в зависимостях - это критическая проблема. Это как в случае “казнить нельзя помиловать”.
источник

DS

Daria Samsonova in Natural Language Processing
это не странный английский, а инверсия в качестве тропа для придания стилистической окраски
источник

SS

Sergey Sikorskiy in Natural Language Processing
Я прочитал все, что смог найти на эту тему. Прочитать абсолютно все я не в состоянии. Поэтому и спрашиваю у людей, которые занимаются этим профессионально. Т.е. прочитали и проработали больше материала, чем это смог сделать я.
источник

DS

Daria Samsonova in Natural Language Processing
что вы имеете ввиду под "ошибкой в зависимостях"?
источник

SS

Sergey Sikorskiy in Natural Language Processing
построение дерева зависимостей в таком виде, корорый не позволяетс восстановить предложение обратно без искажения смысла.
Т.е. пропущенные/линеаризованные зависисмости, не правильные родители.
источник

EE

E E in Natural Language Processing
Как я понял, не круто что там 'в, ровно,  десять' все являются непосредственно зависящими от 'часов'
источник

DS

Daria Samsonova in Natural Language Processing
ну так они не "неправильные", они просто размечены по другой формальной системе
источник

EE

E E in Natural Language Processing
Можете пример привести двух предложений разных, с этим деревом?
источник

SS

Sergey Sikorskiy in Natural Language Processing
Да. Вопрос в том, чем такая разметка аргументируется. (помимо того, что просто кому-то так больше нравится)
источник

EE

E E in Natural Language Processing
Если нельзя восстановить,  то должно быть 2 предложения с одним деревом,  но разными значениями.
источник