Size: a a a

Natural Language Processing

2020 August 27

DP

Defragmented Panda in Natural Language Processing
а еще и имя. оно должно быть с большой буквы в любом случае
источник

C

Constantin in Natural Language Processing
я сначала подумал, что Наталья опечаталась и имела ввиду именно капитализацию, но в статье, которую она скинула речь именно про пунктуацию.
источник

C

Constantin in Natural Language Processing
ну вы сами видите, что народ все пишет в lower() ...
источник

C

Constantin in Natural Language Processing
в конце концов, капитализация не должна мешать понимаю смысла, ведь человека не сбивает с толку, что имя написано с маленькой буквы, он понимает, что это слово выражает имя.
источник

AK

Alexander Kukushkin in Natural Language Processing
Constantin
Мне нужно разделять текст в предложения. Я посмотрел наиболее популярные модели: razdel, rusenttokenize. Судя по таблице они имею самую высокую точность, но почему то они ломаются если в тексте новое предложение начать с маленькой буквы ... В интернете, особенно в соц. сетях, люди редко используют заглавные буквы... а обрабатывать эти данные хотелось бы.

Что тут можно поделать?
Смотри https://habr.com/ru/post/516098/#razdel

Правила в Razdel оптимизированы для аккуратно написанных текстов с правильной пунктуацией. Решение хорошо работает с новостными статьями, художественными текстами. На постах из социальных сетей, расшифровках телефонных разговоров качество ниже. Если между предложениями нет пробела или в конце нет точки или предложение начинается с маленькой буквы, Razdel сделает ошибку.

Как писать правила под свои задачи читайте в исходниках, в документации эта тема пока не раскрыта.
источник

AK

Alexander Kukushkin in Natural Language Processing
Это справедливо и для других решений на правилах (rusenttokenizer например). Для соцсетей нужно думать в сторону статистических методов
источник

N

Natalia in Natural Language Processing
но вы же понимаете, что в языке существует огромное количество слов, для которых оба варианта встречаются, но почему-то границы мы проводить умеем?

и в случае границы предложения у нас не просто признак "заглавная/строчная", а признак "после точки". а по сути а) в разговорной речи нет ни пунктуации, ни разницы между строчной и прописной, б) мы исходим из пауз и выделения ядра клауз (условного ROOT в CONLL)

и если вы берёте тексты из сети, там будет очень много проблем с пунктуацией, дело не только в регистре же
источник

N

Natalia in Natural Language Processing
но да, наверное, самым лучшим было бы наличие моделей, натренированных в т.ч. на нормальном проценте текстов без капитализаций и пунктуации (ну или разных сочетаний этого), но успехов нам в том, чтобы эти данные насобирать

с другой стороны, явно можно как-то подобным образом поиграться с имеющимися золотыми деревьями (или посмотреть, не проверяли ли это в статьях уже)
источник

N

Natalia in Natural Language Processing
да, про разговорную речь было к тому, чтоб мы не забывали, что она-то первична и что всё равно ж в ней клаузы есть, а пунктуации и прочее - уже условность для фиксации пауз и чего там ещё для нас важно
источник

C

Constantin in Natural Language Processing
Спасибо
источник

ER

Ed Ryzhov in Natural Language Processing
Из области бреда: взять литературный текст, разбить на предложения "Наташей", взять этот же текст, заловеркейсить, "испоганить" и т.д., потом обучить нейронку разделять на предложения.
источник

N

Natalia in Natural Language Processing
да-да
источник

N

Natalia in Natural Language Processing
ну или сделать то же самое с каким-нибудь синтагрусом
источник

SK

Sasha Korovii in Natural Language Processing
Привет, такой вопрос, а кто то делал кластеризацию новостей real time? Интересует больше вопрос, как быстро находить вектора которые в близи к входному. Пробовал использовать библиотеку annoy от Spotify, но там нужно очень часто ребилд делать, чтобы охвативать новые вектора. Сейчас сделал версию когда сравниваешь входящий вектор с новостью из каждого кластера, а потом по трешхолду смотрю к которому  кластеру отнести. Но асимптотика О(N^2) мне не нравится.
источник

БД

Борис Добров... in Natural Language Processing
Кластеризация по-любому O(n2).
Но по факту не нужно делать полную для всего потока, достаточно по верхней части выборки.
источник

YP

Yaroslav Pikaliov in Natural Language Processing
Yuri Baburov
Вот 1 Гб кажется предел. А корпуса можно найти на 320 гб (142 Либрусек+156 Оскар + 15 Гб новостей + 5 Гб Википедия).
Что за ресурс оскар?
источник

YB

Yuri Baburov in Natural Language Processing
Yaroslav Pikaliov
Что за ресурс оскар?
Дедуплицированный common crawl, https://oscar-corpus.com/
источник

VB

Vladimir Bougay in Natural Language Processing
Sasha Korovii
Привет, такой вопрос, а кто то делал кластеризацию новостей real time? Интересует больше вопрос, как быстро находить вектора которые в близи к входному. Пробовал использовать библиотеку annoy от Spotify, но там нужно очень часто ребилд делать, чтобы охвативать новые вектора. Сейчас сделал версию когда сравниваешь входящий вектор с новостью из каждого кластера, а потом по трешхолду смотрю к которому  кластеру отнести. Но асимптотика О(N^2) мне не нравится.
FAISS даёт возможность инкрементально в индекс дописывать
источник

DD

David Dale in Natural Language Processing
Sasha Korovii
Привет, такой вопрос, а кто то делал кластеризацию новостей real time? Интересует больше вопрос, как быстро находить вектора которые в близи к входному. Пробовал использовать библиотеку annoy от Spotify, но там нужно очень часто ребилд делать, чтобы охвативать новые вектора. Сейчас сделал версию когда сравниваешь входящий вектор с новостью из каждого кластера, а потом по трешхолду смотрю к которому  кластеру отнести. Но асимптотика О(N^2) мне не нравится.
Есть birch, где кластеры собраны в дерево, там асимптотика лучше. Я большие массивы им кластеризую даже офлайн, чисто ради скорости.
источник

AG

Abhishek Gupta in Natural Language Processing
источник