Size: a a a

Natural Language Processing

2021 January 14

PL

Pavel Lebedev in Natural Language Processing
так что посчитал не прицнипиальным
источник

SancheZz Мов in Natural Language Processing
А объектов много?
источник

PL

Pavel Lebedev in Natural Language Processing
4000, 9000 объектов.
источник

PL

Pavel Lebedev in Natural Language Processing
признаков 1000, 25000
источник

PL

Pavel Lebedev in Natural Language Processing
в кажом объекте их присутсвует не больше нескольких десятков-может сотни
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
> А если считать что объект это документ компонент?
не уловил. поясните? это текстовые данные в действительности, коллекции и элементы/фрагменты.
Пусть объект это некий id, компонента тоже id
источник

SancheZz Мов in Natural Language Processing
Тогда объект obj id это набор comps id
источник

PL

Pavel Lebedev in Natural Language Processing
да
источник

SancheZz Мов in Natural Language Processing
Получается, что obj id это документ из comps id
источник

PL

Pavel Lebedev in Natural Language Processing
да
источник

SancheZz Мов in Natural Language Processing
"документ"
источник

SancheZz Мов in Natural Language Processing
Может натравить на это w2v?)
источник

SancheZz Мов in Natural Language Processing
Токен =comp id
источник

SancheZz Мов in Natural Language Processing
Обучить skip gramm
источник

SancheZz Мов in Natural Language Processing
Получим comp_id2vec
источник

SancheZz Мов in Natural Language Processing
Вектор объекта есть сумма векторов компонент
источник

PL

Pavel Lebedev in Natural Language Processing
ну т.е. есть все же делаем разреженную матрицу и отправляем в какой-то алгоритм ембеддинга?
источник

SancheZz Мов in Natural Language Processing
Ну я бы так сделал,но если очень хочется упороться
источник

SancheZz Мов in Natural Language Processing
David Dale
Вместо umap можно попробовать сделать какое-нибудь классическое линейное разложение (типа truncatedSVD или какой-нибудь вариант topic modelling).
Но считаю,лучше начать с простого
источник

SancheZz Мов in Natural Language Processing
Как указал Давид
источник