Телеграмм чат группы natural_language_processing страница 978

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2290 membersпожаловаться на группу

2020 December 23

R

Ravishankar in Natural Language Processing

Hi guys, had anyone worked on semantic similarly between documents. The use case is: I need 2 compare a doc with other docs in corpus. Tried TfIDF and doc2vec, wasn't getting good results.
TFIdf is not best suited as when we compare doc1 with doc2. Is there any suggestions/references

источник

15:53пожаловаться #1

NS

Nikolay V. Shmyrev in Natural Language Processing

Krep Kospit

Здравствуйте! Помогите, пожалуйста, понять, что значит этот отрывок из статьи о LSTM: Hidden dimension - represents the size of the hidden state and cell state at each time step, e.g. the hidden state and cell state will both have the shape of [3, 5, 4] if the hidden dimension is 3

5 и 4 там из других соображений, написанных где-то рядом в том же месте 😉

источник

16:01пожаловаться #2

KK

Krep Kospit in Natural Language Processing

Nikolay V. Shmyrev

5 и 4 там из других соображений, написанных где-то рядом в том же месте 😉

Спасибо! )
Я предполагал, что 5 - это размер входного вектора, который задан выше, но вот что инициализируется четвёркой - в упор не вижу.

источник

16:32пожаловаться #3

KK

Krep Kospit in Natural Language Processing

В примере задаётся hidden_state = torch.randn(n_layers, batch_size, hidden_dim) Первые два параметра я понимаю, а что есть hidden_dim...

источник

16:35пожаловаться #4

AW

Alex Wortega in Natural Language Processing

Ravishankar

Hi guys, had anyone worked on semantic similarly between documents. The use case is: I need 2 compare a doc with other docs in corpus. Tried TfIDF and doc2vec, wasn't getting good results.
TFIdf is not best suited as when we compare doc1 with doc2. Is there any suggestions/references

You can use pretrained w2v/fast text / etc for words , and after get mean of words in text

источник

16:40пожаловаться #5

NS

Nikolay V. Shmyrev in Natural Language Processing

Krep Kospit

В примере задаётся hidden_state = torch.randn(n_layers, batch_size, hidden_dim) Первые два параметра я понимаю, а что есть hidden_dim...

Такие вещи лучше не по блогам изучать 😉 обычно в них куча нестыковок.

hidden_dim выбирается из требований задачи, можно 3 взять, можно 512.

4 это 2 * 2 - два слоя и два направления. Подробно написано здесь:

https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html

h_0 of shape (num_layers * num_directions, batch, hidden_size): tensor containing the initial hidden state for each element in the batch. If the LSTM is bidirectional, num_directions should be 2, else it should be 1.

источник

16:43пожаловаться #6

KK

Krep Kospit in Natural Language Processing

Nikolay V. Shmyrev

Такие вещи лучше не по блогам изучать 😉 обычно в них куча нестыковок.

hidden_dim выбирается из требований задачи, можно 3 взять, можно 512.

4 это 2 * 2 - два слоя и два направления. Подробно написано здесь:

https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html

h_0 of shape (num_layers * num_directions, batch, hidden_size): tensor containing the initial hidden state for each element in the batch. If the LSTM is bidirectional, num_directions should be 2, else it should be 1.

Оу, тогда получатеся, что hidden_size – The number of features in the hidden state h и смысл вроде как прояснился... Ещё раз спасибо!

источник

16:49пожаловаться #7

KA

Katya Artemova in Natural Language Processing

Коллеги, а кто-нибудь знает хороший сплиттер предложений для армянского?

источник

17:11пожаловаться #8

N

Natalia in Natural Language Processing

https://stanfordnlp.github.io/stanza/performance.html

High-performance human language analysis tools, now with native deep learning modules in Python, available in many human languages.

источник

21:29пожаловаться #9

N

Natalia in Natural Language Processing

в UD есть армянский, так что смотрите на качество

источник

21:30пожаловаться #10

N

Natalia in Natural Language Processing

но подозреваю, что у udpipe может быть похуже немножко, хотя, может, именно в плане сегментации и ок

источник

21:31пожаловаться #11

N

Natalia in Natural Language Processing

или нужно именно предложения без пунктуации бить?

источник

21:31пожаловаться #12

KA

Katya Artemova in Natural Language Processing

Нет, нужно обычный текст разделить на предложения. Спасибо, отличная идея, посмотрю!

источник

21:53пожаловаться #13

KS

Konstantin Smith in Natural Language Processing

Taras Novokhatsko

Всем привет. Только ступил на путь nlp. Есть вопросик: как найти заголовок в цифровом PDF, не используя CV и DL? Испробовал pyPDF2, PyMuPDF, pdfminer, pdfrw. Пока только получается выводить целый текст без артефактов, выделять страницы и сохранять их в новом файле.
Подскажите, в какую сторону смотреть по этому вопросу? Спасибо.

Я решал эту задачу через анализатор pullenti TitlePageAnalyzer, который по тексту титульной страницы может найти наименование, авторов организацию и пр. Например, когда на входе курсовые, диссертации, статьи, справки и т.п., то перед собственно наименованием может быть куча информации. Работает не только для pdf, так как анализирует текст.

источник

23:43пожаловаться #14

KS

Konstantin Smith in Natural Language Processing

Svetlana Svetlana

Привет!
А может кто-нибудь посоветовать хорошие библиотеки/модели для обработки текстов запросов? интересует обход синтаксического дерева с последующим выделением оттуда осмысленных словосочетаний

В pullenti есть анализатор KeywordAnalyzer. Также можно напрямую идти по токенам и находить именные группы (сущ. с возможными прилагат.). В принципе, этого обычно достаточно для текстовых запросов.

источник

23:46пожаловаться #15

2020 December 24

YB

Yuri Baburov in Natural Language Processing

Toemik Mnemonic

всем привет. Кто нибудь знает в русской модели spacy-ru метод noun_chunks корректно работает?

У меня есть более-менее работающая версия в
https://github.com/buriy/spacy-ru/blob/v2.3/ru2/syntax_iterators.py
потестируйте?
Вот ветка для отслеживания прогресса: https://github.com/buriy/spacy-ru/issues/5

buriy/spacy-ru

Russian language models for spaCy. Contribute to buriy/spacy-ru development by creating an account on GitHub.

источник

01:26пожаловаться #16

TN

Taras Novokhatsko in Natural Language Processing

Konstantin Smith

Я решал эту задачу через анализатор pullenti TitlePageAnalyzer, который по тексту титульной страницы может найти наименование, авторов организацию и пр. Например, когда на входе курсовые, диссертации, статьи, справки и т.п., то перед собственно наименованием может быть куча информации. Работает не только для pdf, так как анализирует текст.

Спасибо

источник

09:14пожаловаться #17

KK

Krep Kospit in Natural Language Processing

Добрый день! Правильно ли я понимаю, что сети-трансформеры могут генерировать(продолжать) текст по тому же механизму, по которому их используют для перевода?

источник

14:24пожаловаться #18

DD

David Dale in Natural Language Processing

Krep Kospit

Добрый день! Правильно ли я понимаю, что сети-трансформеры могут генерировать(продолжать) текст по тому же механизму, по которому их используют для перевода?

Да, именно в этом их задумка и есть.

источник

15:02пожаловаться #19

МН

Михаил Никифоров... in Natural Language Processing

Да, именно в этом их задумка и есть.

А для генерации музыки не тестировали?

источник

15:35пожаловаться #20