Size: a a a

Natural Language Processing

2018 April 22

VB

Vlad Bocharov in Natural Language Processing
через прокси не грузило, а без него да, странно
источник
2018 April 23

PP

Pavel Philippovich in Natural Language Processing
Добрый день.
Вопрос возник: никто не всетрчал "supervised" SRL для русского?
Под "supervised" я понимаю нечто похожее на Snorkel.
Там, как бы, зависимости нету от языка, но для парсинга используется Spacy, который, пока что, не особо умеет в русский.
Или, как вариант, собирать свой Spacy-подобный стейдж для парсинга на основе других инструментов?
источник

MK

Marat Kurilovich in Natural Language Processing
Добрый вечер, кто что использует для соотнесения текстов (не слов) в смысле их смысловой близости? Проблема такая, что многие документы довольно схожи между собой и много повторяющихся слов. Может кто сталкивался с подобным
источник

AP

Alexander Pozharskiy in Natural Language Processing
Как бейзлайн - возможно, косинусная мера схожести tf-idf (лемматизированного/стемматизированного)?
источник

AP

Alexander Pozharskiy in Natural Language Processing
Но это не точно - на практике не сталкивался.
источник

MK

Marat Kurilovich in Natural Language Processing
Да, пробовал ее но к сожалению не совсем устроила
источник

AA

Ali Abdullaev in Natural Language Processing
doc2vec?
источник

AF

Alexander Fedorenko in Natural Language Processing
Рекомендую посмотреть gensim. Сам использую. https://radimrehurek.com/gensim/
источник

AA

Ali Abdullaev in Natural Language Processing
Или к примеру попарное sentences2vec если можешь четкие предложения извлечь
источник

MK

Marat Kurilovich in Natural Language Processing
gensim полезная библиотека, согласен
источник

MK

Marat Kurilovich in Natural Language Processing
Ali Abdullaev
Или к примеру попарное sentences2vec если можешь четкие предложения извлечь
Про это не слышал даже, попробую, спасибо
источник

AB

Arcady Balandin in Natural Language Processing
Народ, что порекомендуете по задачке. Нужен корпус текстов, каждый текст должен иметь облако тэгов, определенное вручную. Тэги такие:
1. положительный / отрицательный по эмоциям текст
2. агрессивный
3. добрый/ злой
4. призыв - отсутствие призыва
и т.п.

Можно на английском, но лучше и на русском.
кто нитбудь видел подобное?
источник

AF

Alexander Fedorenko in Natural Language Processing
выбирая между tf-idf и lsi. lda индексами ты можешь выбирать характер близости текстов по используемым словам, семантической близости или все вместе
источник

AF

Alexander Fedorenko in Natural Language Processing
Marat Kurilovich
Про это не слышал даже, попробую, спасибо
Кстати в gensim это есть https://radimrehurek.com/gensim/models/doc2vec.html
источник

AA

Ali Abdullaev in Natural Language Processing
В gensim lda, по своему опыту скажу, что plsa с регуляризацией интереснее
источник

MK

Marat Kurilovich in Natural Language Processing
Я именно про sentences, если отбельная модель то наверное отличается от doc
источник

AF

Alexander Fedorenko in Natural Language Processing
Marat Kurilovich
Я именно про sentences, если отбельная модель то наверное отличается от doc
models.doc2vec – Deep learning with paragraph2vec
источник

MK

Marat Kurilovich in Natural Language Processing
Ali Abdullaev
В gensim lda, по своему опыту скажу, что plsa с регуляризацией интереснее
Попробую их применить, спасибо
Только plsa не могу найти реализации
источник

MK

Marat Kurilovich in Natural Language Processing
Alexander Fedorenko
models.doc2vec – Deep learning with paragraph2vec
Ещё и paragraph есть
источник

AF

Alexander Fedorenko in Natural Language Processing
Marat Kurilovich
Попробую их применить, спасибо
Только plsa не могу найти реализации
Все зависит от объемов текстов. Если текстов не очень много, то и lsi будет эффективнее против того же lda
источник