Size: a a a

Natural Language Processing

2020 December 23

R

Ravishankar in Natural Language Processing
Hi guys, had anyone worked on semantic similarly between documents. The use case is: I need 2 compare a doc with other docs in corpus. Tried TfIDF and doc2vec, wasn't getting good results.
TFIdf is not best suited as when we compare doc1 with doc2. Is there any suggestions/references
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Krep Kospit
Здравствуйте! Помогите, пожалуйста, понять, что значит этот отрывок из статьи о LSTM: Hidden dimension - represents the size of the hidden state and cell state at each time step, e.g. the hidden state and cell state will both have the shape of [3, 5, 4] if the hidden dimension is 3
5 и 4 там из других соображений, написанных где-то рядом в том же месте 😉
источник

KK

Krep Kospit in Natural Language Processing
Nikolay V. Shmyrev
5 и 4 там из других соображений, написанных где-то рядом в том же месте 😉
Спасибо! )
Я предполагал, что 5 - это размер входного вектора, который задан выше, но вот что инициализируется четвёркой - в упор не вижу.
источник

KK

Krep Kospit in Natural Language Processing
В примере задаётся hidden_state = torch.randn(n_layers, batch_size, hidden_dim)  Первые два параметра я понимаю, а что есть hidden_dim...
источник

AW

Alex Wortega in Natural Language Processing
Ravishankar
Hi guys, had anyone worked on semantic similarly between documents. The use case is: I need 2 compare a doc with other docs in corpus. Tried TfIDF and doc2vec, wasn't getting good results.
TFIdf is not best suited as when we compare doc1 with doc2. Is there any suggestions/references
You can use pretrained w2v/fast text / etc for words , and after get mean of words in text
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Krep Kospit
В примере задаётся hidden_state = torch.randn(n_layers, batch_size, hidden_dim)  Первые два параметра я понимаю, а что есть hidden_dim...
Такие вещи лучше не по блогам изучать 😉 обычно в них куча нестыковок.

hidden_dim выбирается из требований задачи, можно 3 взять, можно 512.

4 это 2 * 2  - два слоя и два направления. Подробно написано здесь:

https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html

h_0 of shape (num_layers * num_directions, batch, hidden_size): tensor containing the initial hidden state for each element in the batch. If the LSTM is bidirectional, num_directions should be 2, else it should be 1.
источник

KK

Krep Kospit in Natural Language Processing
Nikolay V. Shmyrev
Такие вещи лучше не по блогам изучать 😉 обычно в них куча нестыковок.

hidden_dim выбирается из требований задачи, можно 3 взять, можно 512.

4 это 2 * 2  - два слоя и два направления. Подробно написано здесь:

https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html

h_0 of shape (num_layers * num_directions, batch, hidden_size): tensor containing the initial hidden state for each element in the batch. If the LSTM is bidirectional, num_directions should be 2, else it should be 1.
Оу, тогда получатеся, что hidden_size – The number of features in the hidden state h и смысл вроде как прояснился... Ещё раз спасибо!
источник

KA

Katya Artemova in Natural Language Processing
Коллеги, а кто-нибудь знает хороший сплиттер предложений для армянского?
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
в UD есть армянский, так что смотрите на качество
источник

N

Natalia in Natural Language Processing
но подозреваю, что у udpipe может быть похуже немножко, хотя, может, именно в плане сегментации и ок
источник

N

Natalia in Natural Language Processing
или нужно именно предложения без пунктуации бить?
источник

KA

Katya Artemova in Natural Language Processing
Нет, нужно обычный текст разделить на предложения. Спасибо, отличная идея, посмотрю!
источник

KS

Konstantin Smith in Natural Language Processing
Taras Novokhatsko
Всем привет. Только ступил на путь nlp. Есть вопросик: как найти заголовок в цифровом PDF, не используя CV и DL? Испробовал  pyPDF2, PyMuPDF, pdfminer, pdfrw. Пока только получается выводить целый текст без артефактов, выделять страницы и сохранять их в новом файле.
Подскажите, в какую сторону смотреть по этому вопросу? Спасибо.
Я решал эту задачу через анализатор pullenti TitlePageAnalyzer, который по тексту титульной страницы может найти наименование, авторов  организацию и пр. Например, когда на входе курсовые, диссертации, статьи, справки и т.п., то перед собственно наименованием может быть куча информации. Работает не только для pdf, так как анализирует текст.
источник

KS

Konstantin Smith in Natural Language Processing
Svetlana Svetlana
Привет!
А может кто-нибудь посоветовать хорошие библиотеки/модели для обработки текстов запросов? интересует обход синтаксического дерева с последующим выделением оттуда осмысленных словосочетаний
В pullenti есть анализатор KeywordAnalyzer. Также можно напрямую идти по токенам и находить именные группы (сущ. с возможными прилагат.). В принципе, этого обычно достаточно для текстовых запросов.
источник
2020 December 24

YB

Yuri Baburov in Natural Language Processing
Toemik Mnemonic
всем привет. Кто нибудь знает в русской модели spacy-ru  метод noun_chunks корректно работает?
У меня есть более-менее работающая версия в
https://github.com/buriy/spacy-ru/blob/v2.3/ru2/syntax_iterators.py
потестируйте?
Вот ветка для отслеживания прогресса: https://github.com/buriy/spacy-ru/issues/5
источник

TN

Taras Novokhatsko in Natural Language Processing
Konstantin Smith
Я решал эту задачу через анализатор pullenti TitlePageAnalyzer, который по тексту титульной страницы может найти наименование, авторов  организацию и пр. Например, когда на входе курсовые, диссертации, статьи, справки и т.п., то перед собственно наименованием может быть куча информации. Работает не только для pdf, так как анализирует текст.
Спасибо
источник

KK

Krep Kospit in Natural Language Processing
Добрый день! Правильно ли я понимаю, что сети-трансформеры могут генерировать(продолжать) текст по тому же механизму, по которому их используют для перевода?
источник

DD

David Dale in Natural Language Processing
Krep Kospit
Добрый день! Правильно ли я понимаю, что сети-трансформеры могут генерировать(продолжать) текст по тому же механизму, по которому их используют для перевода?
Да, именно в этом их задумка и есть.
источник

МН

Михаил Никифоров... in Natural Language Processing
David Dale
Да, именно в этом их задумка и есть.
А для генерации музыки не тестировали?
источник