Size: a a a

Natural Language Processing

2018 April 24

D

Dmitry in Natural Language Processing
Ага, совсем не deep )
источник

t2

tonko 22 in Natural Language Processing
А я вот с фасттекстом экспериментирую, крутая модель. Правда пришлось свои эмбеддинги для документов пилить - 4 часа изучал исходники генсима. Весьма трудоемко, учитывая все их deprecated классы.
источник

TY

Timofey Yefimov in Natural Language Processing
tonko 22
А я вот с фасттекстом экспериментирую, крутая модель. Правда пришлось свои эмбеддинги для документов пилить - 4 часа изучал исходники генсима. Весьма трудоемко, учитывая все их deprecated классы.
Свои эмбеддинги?
источник

TY

Timofey Yefimov in Natural Language Processing
Обучать пришлось в смысле?
источник

TY

Timofey Yefimov in Natural Language Processing
Зачем 4 часа изучать, можно было просто спросить)
источник

TY

Timofey Yefimov in Natural Language Processing
В документации что-то непонятно?

https://radimrehurek.com/gensim/models/fasttext.html#module-gensim.models.fasttext
источник

t2

tonko 22 in Natural Language Processing
Timofey Yefimov
Зачем 4 часа изучать, можно было просто спросить)
Выбирал наиболее подходящий класс для создания помещения своих док-эмбеддингов)
источник

TY

Timofey Yefimov in Natural Language Processing
Так он же там один для фасттекста
источник

t2

tonko 22 in Natural Language Processing
В фасттексте у меня ворд-левел, док левел я засунул в  WordEmbeddingsKeyedVectors
источник

t2

tonko 22 in Natural Language Processing
Там как раз есть методы add, most_similar, в общем все что надо
источник

TY

Timofey Yefimov in Natural Language Processing
У фасттекста тоже это есть
источник

TY

Timofey Yefimov in Natural Language Processing
Через .wv
источник

t2

tonko 22 in Natural Language Processing
В фасттексте проблема в том что сложно добавить новую сущность, например документа, потому что все численные айдишники он генерирует по нграммам
источник

t2

tonko 22 in Natural Language Processing
Я 15 минут пытался придумать какой-то уникальный хэш, который он бы не разбирал на нграммы и решил что проще взять другой класс
источник

t2

tonko 22 in Natural Language Processing
В итоге у меня класс-композиция из gensim.models.fasttext и  WordEmbeddingsKeyedVectors
источник

t2

tonko 22 in Natural Language Processing
Пока обучаю-оптимизирую параметры. В проде останется только док-уровень.
источник

AF

Alexander Fedorenko in Natural Language Processing
tonko 22
not so deep, actually, внутри даже нейронки нет
Господа, вы уверены, в том, что доктор наук Радим, автор библиотеки Gensim будет обманывать?!  Не надо в след раз торопиться с выводами, особенно если они неверны. Предлагаю ознакомиться со след. материалом: Bases: gensim.models.base_any2vec.BaseWordEmbeddingsModel

Class for training, using and evaluating neural networks described in http://arxiv.org/pdf/1405.4053v2.pdf
источник

AF

Alexander Fedorenko in Natural Language Processing
Кстати Tomas Mikolov его друг. Надеюсь вы знаете кто это)
источник

t2

tonko 22 in Natural Language Processing
То что предложил Миколов и то что реализовал Радим, это разные вещи. Радим оптимизировал код Томаша, изначально написанный на С, кстати, с ошибками. Если у Томаша и была нейронка, то это простой Autoencoder, который нельзя назвать deep. Радим, в целях максимальной оптимизации убрал какие-либо нейросетевые архитектуры и свел задачу отпимизации к простому алгоритму, напрямую уменьшающую косинусную близость исходные векторов слов исходя из их совместной встречаемости. Об этом, кстати, рассказывал Лев Константиновский, бывший представитель gensim в России, в своих презентациях Gensim.
источник

D

Dmitry in Natural Language Processing
Alexander Fedorenko
Господа, вы уверены, в том, что доктор наук Радим, автор библиотеки Gensim будет обманывать?!  Не надо в след раз торопиться с выводами, особенно если они неверны. Предлагаю ознакомиться со след. материалом: Bases: gensim.models.base_any2vec.BaseWordEmbeddingsModel

Class for training, using and evaluating neural networks described in http://arxiv.org/pdf/1405.4053v2.pdf
Нейронка то есть, но никак не deep )
источник