Телеграмм чат группы natural_language_processing страница 809

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1945 membersпожаловаться на группу

2020 August 27

DP

Defragmented Panda in Natural Language Processing

а еще и имя. оно должно быть с большой буквы в любом случае

источник

17:42пожаловаться #1

C

Constantin in Natural Language Processing

я сначала подумал, что Наталья опечаталась и имела ввиду именно капитализацию, но в статье, которую она скинула речь именно про пунктуацию.

источник

17:43пожаловаться #2

C

Constantin in Natural Language Processing

ну вы сами видите, что народ все пишет в lower() ...

источник

17:43пожаловаться #3

C

Constantin in Natural Language Processing

в конце концов, капитализация не должна мешать понимаю смысла, ведь человека не сбивает с толку, что имя написано с маленькой буквы, он понимает, что это слово выражает имя.

источник

17:45пожаловаться #4

AK

Alexander Kukushkin in Natural Language Processing

Мне нужно разделять текст в предложения. Я посмотрел наиболее популярные модели: razdel, rusenttokenize. Судя по таблице они имею самую высокую точность, но почему то они ломаются если в тексте новое предложение начать с маленькой буквы ... В интернете, особенно в соц. сетях, люди редко используют заглавные буквы... а обрабатывать эти данные хотелось бы.

Что тут можно поделать?

Смотри https://habr.com/ru/post/516098/#razdel

Правила в Razdel оптимизированы для аккуратно написанных текстов с правильной пунктуацией. Решение хорошо работает с новостными статьями, художественными текстами. На постах из социальных сетей, расшифровках телефонных разговоров качество ниже. Если между предложениями нет пробела или в конце нет точки или предложение начинается с маленькой буквы, Razdel сделает ошибку.

Как писать правила под свои задачи читайте в исходниках, в документации эта тема пока не раскрыта.

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Прое...

источник

17:56пожаловаться #5

AK

Alexander Kukushkin in Natural Language Processing

Это справедливо и для других решений на правилах (rusenttokenizer например). Для соцсетей нужно думать в сторону статистических методов

источник

17:58пожаловаться #6

N

Natalia in Natural Language Processing

но вы же понимаете, что в языке существует огромное количество слов, для которых оба варианта встречаются, но почему-то границы мы проводить умеем?

и в случае границы предложения у нас не просто признак "заглавная/строчная", а признак "после точки". а по сути а) в разговорной речи нет ни пунктуации, ни разницы между строчной и прописной, б) мы исходим из пауз и выделения ядра клауз (условного ROOT в CONLL)

и если вы берёте тексты из сети, там будет очень много проблем с пунктуацией, дело не только в регистре же

источник

17:58пожаловаться #7

N

Natalia in Natural Language Processing

но да, наверное, самым лучшим было бы наличие моделей, натренированных в т.ч. на нормальном проценте текстов без капитализаций и пунктуации (ну или разных сочетаний этого), но успехов нам в том, чтобы эти данные насобирать

с другой стороны, явно можно как-то подобным образом поиграться с имеющимися золотыми деревьями (или посмотреть, не проверяли ли это в статьях уже)

источник

18:01пожаловаться #8

N

Natalia in Natural Language Processing

да, про разговорную речь было к тому, чтоб мы не забывали, что она-то первична и что всё равно ж в ней клаузы есть, а пунктуации и прочее - уже условность для фиксации пауз и чего там ещё для нас важно

источник

18:02пожаловаться #9

C

Constantin in Natural Language Processing

Спасибо

источник

18:08пожаловаться #10

ER

Ed Ryzhov in Natural Language Processing

Из области бреда: взять литературный текст, разбить на предложения "Наташей", взять этот же текст, заловеркейсить, "испоганить" и т.д., потом обучить нейронку разделять на предложения.

источник

18:14пожаловаться #11

N

Natalia in Natural Language Processing

да-да

источник

18:29пожаловаться #12

N

Natalia in Natural Language Processing

ну или сделать то же самое с каким-нибудь синтагрусом

источник

18:29пожаловаться #13

SK

Sasha Korovii in Natural Language Processing

Привет, такой вопрос, а кто то делал кластеризацию новостей real time? Интересует больше вопрос, как быстро находить вектора которые в близи к входному. Пробовал использовать библиотеку annoy от Spotify, но там нужно очень часто ребилд делать, чтобы охвативать новые вектора. Сейчас сделал версию когда сравниваешь входящий вектор с новостью из каждого кластера, а потом по трешхолду смотрю к которому кластеру отнести. Но асимптотика О(N^2) мне не нравится.

источник

20:21пожаловаться #14

БД

Борис Добров... in Natural Language Processing

Кластеризация по-любому O(n2).
Но по факту не нужно делать полную для всего потока, достаточно по верхней части выборки.

источник

20:34пожаловаться #15

YP

Yaroslav Pikaliov in Natural Language Processing

Вот 1 Гб кажется предел. А корпуса можно найти на 320 гб (142 Либрусек+156 Оскар + 15 Гб новостей + 5 Гб Википедия).

Что за ресурс оскар?

источник

21:05пожаловаться #16

YB

Yuri Baburov in Natural Language Processing

Yaroslav Pikaliov

Что за ресурс оскар?

Дедуплицированный common crawl, https://oscar-corpus.com/

Humongous Corpus

источник

21:09пожаловаться #17

VB

Vladimir Bougay in Natural Language Processing

Привет, такой вопрос, а кто то делал кластеризацию новостей real time? Интересует больше вопрос, как быстро находить вектора которые в близи к входному. Пробовал использовать библиотеку annoy от Spotify, но там нужно очень часто ребилд делать, чтобы охвативать новые вектора. Сейчас сделал версию когда сравниваешь входящий вектор с новостью из каждого кластера, а потом по трешхолду смотрю к которому кластеру отнести. Но асимптотика О(N^2) мне не нравится.

FAISS даёт возможность инкрементально в индекс дописывать

источник

21:28пожаловаться #18

DD

David Dale in Natural Language Processing

Привет, такой вопрос, а кто то делал кластеризацию новостей real time? Интересует больше вопрос, как быстро находить вектора которые в близи к входному. Пробовал использовать библиотеку annoy от Spotify, но там нужно очень часто ребилд делать, чтобы охвативать новые вектора. Сейчас сделал версию когда сравниваешь входящий вектор с новостью из каждого кластера, а потом по трешхолду смотрю к которому кластеру отнести. Но асимптотика О(N^2) мне не нравится.

Есть birch, где кластеры собраны в дерево, там асимптотика лучше. Я большие массивы им кластеризую даже офлайн, чисто ради скорости.

источник

21:46пожаловаться #19

AG

Abhishek Gupta in Natural Language Processing

https://thesweetdata.com/top-machine-learning-algorithms-for-data-scientists

Top Machine Learning Algorithms for Data Scientists

The machine learning algorithms seem uninteresting or dull for most novices to know more about. It is valid to some degree, but in other cases, you may come across a summary of a few pages for each algorithm and it may be time-consuming to find out every detail.

источник

22:42пожаловаться #20