Size: a a a

Natural Language Processing

2021 January 14

PL

Pavel Lebedev in Natural Language Processing
Pavel Lebedev
ну т.е. есть все же делаем разреженную матрицу и отправляем в какой-то алгоритм ембеддинга?
а какой вы бы предложили в этом случае? оригинальный w2v вроде на тексте работает?
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
а какой вы бы предложили в этом случае? оригинальный w2v вроде на тексте работает?
Ему всеравно что есть
источник

PL

Pavel Lebedev in Natural Language Processing
ок, спасибо
источник

SancheZz Мов in Natural Language Processing
Главное чтобы идентификаторы были строками
источник

SancheZz Мов in Natural Language Processing
Не числами
источник

PL

Pavel Lebedev in Natural Language Processing
размерность выхода в таком случае - подбирать?
источник

SancheZz Мов in Natural Language Processing
И из параметров фильтра убрать удаление цифр и препинаний
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
размерность выхода в таком случае - подбирать?
Вечный вопрос, начните с классики 150,200,300
источник

PL

Pavel Lebedev in Natural Language Processing
ок. спасибо!
источник

SancheZz Мов in Natural Language Processing
Но сперва
источник

SancheZz Мов in Natural Language Processing
Сделайте просто
источник

SancheZz Мов in Natural Language Processing
С TSvd
источник

SancheZz Мов in Natural Language Processing
Топик Моделинг тоже кстати тема, можно по тому же принципу
источник

PL

Pavel Lebedev in Natural Language Processing
SancheZz Мов
Топик Моделинг тоже кстати тема, можно по тому же принципу
кстати да. не подумал. какие-то готовые реализации посоветуете?
источник

SancheZz Мов in Natural Language Processing
Gensim мануалов много
источник

PL

Pavel Lebedev in Natural Language Processing
спасибо
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
спасибо
источник

PL

Pavel Lebedev in Natural Language Processing
🙏
источник
2021 January 15

K

Kutuz4 in Natural Language Processing
А можно ли попробовать использовать в тематическом моделирование векторные представления текстов, полученные с помощью bert и ей подобных?
источник

K

Kutuz4 in Natural Language Processing
И по этим векторным представлениям делать кластеризацию(если подскажете инструменты для мягкой кластеризации в sklearn, буду благодарен)
источник