Size: a a a

Natural Language Processing

2021 January 12

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
по идее можно разметить синтаксис в conllu и посмотреть
источник

AK

Alexander Kukushkin in Natural Language Processing
Olga Gracheva
Подскажи, пожалуйста, а каким образом можно вручную сделать span?
Публичного АПИ к сожалению нет, нужно посмотреть как устроен  Span который возвращает Natasha, поищите DocSpan в README https://github.com/natasha/natasha. Это обычный питоновый объект https://github.com/natasha/natasha/blob/master/natasha/doc.py#L55, нужно инициализировать его по аналогии как в README только собрать свои токены в поле tokens.
источник

OG

Olga Gracheva in Natural Language Processing
Благодарю всех за помощь!
источник
2021 January 13

М

Марк in Natural Language Processing
Привет! Нужно научить классификатор определять время новости (новость о прошлом или о будущем). Посоветовали использовать Natasha - у глаголов можно будет вытянуть время, но тут могут возникнуть подводные камни с разными формами образования времен. Например: По прогнозам аналитиков, ожидается рост выручки в 1,61 раза или обманутые дольщики смогут получить помощь от государства. Посоветуйте, плз,  в каком направлении можно двигаться
источник

N

Natalia in Natural Language Processing
ну чисто логически кажется, что вам нужно выуживать клаузы с ключевыми словами, а дальше парсить + искать их вершину + классификатор "прошедшее/всё остальное"
источник

E

Elena in Natural Language Processing
Марк
Привет! Нужно научить классификатор определять время новости (новость о прошлом или о будущем). Посоветовали использовать Natasha - у глаголов можно будет вытянуть время, но тут могут возникнуть подводные камни с разными формами образования времен. Например: По прогнозам аналитиков, ожидается рост выручки в 1,61 раза или обманутые дольщики смогут получить помощь от государства. Посоветуйте, плз,  в каком направлении можно двигаться
если в новости несколько предложений, то можно посчитать, сколько глаголов в будущем, а сколько в настоящем или прошедшем, и если большинство в настоящем и будущем, то это про будущее, а если в прошедшем и настоящем, то про прошлое. Но это надо проверять потом в ручную, работает ли такой простой метод
источник

E

Elena in Natural Language Processing
Еще можно распознавать временные единицы, но я не знаю, есть ли для русского такие модели
источник

М

Марк in Natural Language Processing
Elena
если в новости несколько предложений, то можно посчитать, сколько глаголов в будущем, а сколько в настоящем или прошедшем, и если большинство в настоящем и будущем, то это про будущее, а если в прошедшем и настоящем, то про прошлое. Но это надо проверять потом в ручную, работает ли такой простой метод
Ага, такая же мысль была
источник

DD

David Dale in Natural Language Processing
Марк
Привет! Нужно научить классификатор определять время новости (новость о прошлом или о будущем). Посоветовали использовать Natasha - у глаголов можно будет вытянуть время, но тут могут возникнуть подводные камни с разными формами образования времен. Например: По прогнозам аналитиков, ожидается рост выручки в 1,61 раза или обманутые дольщики смогут получить помощь от государства. Посоветуйте, плз,  в каком направлении можно двигаться
Во-первых, время можно вытащить с помощью любого морфологического анализатора типа pymorphy, это будет быстрее, чем парсеры из Наташи.
Во-вторых, я бы тоже посоветовал классификатор. Самый простой бейзлайн - логистическая регрессия поверх мешка слов (лемм?), куда помимо собственно слов подмешали ещё теги времён глаголов, извлеченных этим самым морфологическим анализатором.
источник

E

Elena in Natural Language Processing
так классификатор - это если есть размеченные данные
источник

N

Natalia in Natural Language Processing
Elena
если в новости несколько предложений, то можно посчитать, сколько глаголов в будущем, а сколько в настоящем или прошедшем, и если большинство в настоящем и будущем, то это про будущее, а если в прошедшем и настоящем, то про прошлое. Но это надо проверять потом в ручную, работает ли такой простой метод
я всё же за то, чтобы осторожно смотреть на наст.+буд. вместе, в русском до сих пор чистое будущее недограмматикализовано и вообще оппозиция скорее "прошедшее/непрошедшее"

как вам глаголы "предстоит", "планируется", "готовится"?
источник

E

Elena in Natural Language Processing
да, поэтому надо смотреть настоящее и будущее
источник

E

Elena in Natural Language Processing
если речь о прошедшем, то настоящего и будущего будет мало
источник

N

Natalia in Natural Language Processing
но вообще начала бы с того, чтобы посмотреть на выборку данных и подумать, что вообще наиболее показательно и какие подводные камни, отсюда плясать
источник

N

Natalia in Natural Language Processing
Elena
если речь о прошедшем, то настоящего и будущего будет мало
в целом да, но я поэтому написала ещё про ключевые слова! может быть какой-то контекст с описанием в прошедшем, а само нужное событие ещё только произойдёт
источник

E

Elena in Natural Language Processing
конечно, если есть время и ресурсы, то можно разметить данные руками, а потом сделать классификатор, как тут советуют, добавив time entities и времена глаголов как фичерс
источник

R

Rishi in Natural Language Processing
Night Fury
not yet
will be working soon
Did you get a chance to start on it?
источник

N

Natalia in Natural Language Processing
короче, на корпус сам ещё надо смотреть: на длину новостей, типы событий на фоне остальных данных и т.п.
источник

E

Elena in Natural Language Processing
без разметки теги времени (вчера, завтра, сегодня и так далее) и время глагола, можно еще добавить совершенный не совершенный вид как вариант, и все это поделить на кластеры или сделать правила как я говорила, по соотношению времен в каждой новости
источник