Size: a a a

Natural Language Processing

2018 April 23

MK

Marat Kurilovich in Natural Language Processing
Alexander Fedorenko
Все зависит от объемов текстов. Если текстов не очень много, то и lsi будет эффективнее против того же lda
Да, в этом и специфика, документов немного, они короткие и довольно схожие, нужен изящный анализ
источник

AF

Alexander Fedorenko in Natural Language Processing
Marat Kurilovich
Да, в этом и специфика, документов немного, они короткие и довольно схожие, нужен изящный анализ
Вот тут и можно нарваться на то, что результаты от более навороченных методов окажутся хуже по сравнению с простыми
источник

MK

Marat Kurilovich in Natural Language Processing
Alexander Fedorenko
Вот тут и можно нарваться на то, что результаты от более навороченных методов окажутся хуже по сравнению с простыми
Понимаю, но все таки простые методы восновном работают с векторными представлениями, насколько я понимаю, а здесь хотелось бы возможно что-то уже обученное, или ещё лучше обученное тематически
источник

В

Василий in Natural Language Processing
Есть подход с другой стороны http://www.machinelearning.ru/wiki/index.php?title=BigARTM
источник

MK

Marat Kurilovich in Natural Language Processing
Василий
Есть подход с другой стороны http://www.machinelearning.ru/wiki/index.php?title=BigARTM
Хм изучу, спасибо
источник

AF

Alexander Fedorenko in Natural Language Processing
Василий
Есть подход с другой стороны http://www.machinelearning.ru/wiki/index.php?title=BigARTM
BigARTM — открытая библиотека для тематического моделирования больших коллекций текстовых документов. А в задаче, для которой обсуждались методы, ситуация с коллекцией другая: Да, в этом и специфика, документов немного, они короткие и довольно схожие, нужен изящный анализ
источник

В

Василий in Natural Language Processing
Тогда шинглы, как в Антиплагиате. Но только как один из вариантов анализа.
источник

TY

Timofey Yefimov in Natural Language Processing
Насколько короткие тексты?
источник

MK

Marat Kurilovich in Natural Language Processing
До 20 слов
источник

MK

Marat Kurilovich in Natural Language Processing
С фильтрацией ещё меньше
источник

TY

Timofey Yefimov in Natural Language Processing
С большой вероятностью зайдёт даже сумма ворд2веков
источник

TY

Timofey Yefimov in Natural Language Processing
И близость суммы к характерным словам с каждой стороны
источник

TY

Timofey Yefimov in Natural Language Processing
Это если ансупервайзд нужен
источник

MK

Marat Kurilovich in Natural Language Processing
Timofey Yefimov
И близость суммы к характерным словам с каждой стороны
Характерные слова это самое сложное наверно
Насчёт суммы вордтувеков тоже читал
источник

TY

Timofey Yefimov in Natural Language Processing
Народ, что порекомендуете по задачке. Нужен корпус текстов, каждый текст должен иметь облако тэгов, определенное вручную. Тэги такие:
1. положительный / отрицательный по эмоциям текст
2. агрессивный
3. добрый/ злой
4. призыв - отсутствие призыва
и т.п.

Можно на английском, но лучше и на русском.
кто нитбудь видел подобное?
источник

TY

Timofey Yefimov in Natural Language Processing
Так вот эти и подойдут
источник

TY

Timofey Yefimov in Natural Language Processing
Кроме последнего
источник

TY

Timofey Yefimov in Natural Language Processing
С призывами не знаю, как ансупервайзд сделать
источник
2018 April 24

D

Dmitry in Natural Language Processing
Timofey Yefimov
С большой вероятностью зайдёт даже сумма ворд2веков
+++ так и делал, неплохо получалось
источник

t2

tonko 22 in Natural Language Processing
Alexander Fedorenko
models.doc2vec – Deep learning with paragraph2vec
not so deep, actually, внутри даже нейронки нет
источник