Size: a a a

Natural Language Processing

2021 January 13

НК

Николай Карпенко... in Natural Language Processing
Богдан Бондарчук
Друзья, добрый день! Хочу сгенерить embeddings при помощи трансформера. Данных много, и npy матрица эмбеддингов не влезает в оперативку 35ГБ. Хочется взять данных еще больше. Посоветуйте, какой сервер арендовать с 100ГБ оперативки, и разумно ли такое вообще делать?
источник

N

Natalia in Natural Language Processing
что-то новенькое вышло (якобы даже лучше stanza): https://github.com/nlp-uoregon/trankit
источник

N

Natalia in Natural Language Processing
источник
2021 January 14

ББ

Богдан Бондарчук... in Natural Language Processing
Максим Ермаков
Я генсимом генерил эмбеддингов гигов на 50 - просто сделал огромный своп на SSD. Если не продакшн решение, а просто эксперимент - не вижу причин так не делать.
спасибо:)
источник

ББ

Богдан Бондарчук... in Natural Language Processing
жаль, что там нельзя gpu поставить..
источник

AO

Alex Orgish in Natural Language Processing
Судя по исходникам ребята просто stanza допилили.
источник

N

Natalia in Natural Language Processing
ну там в acknowledgements написано всё
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Привет всем.

Подскажите, пожалуйста, какой библиотекой python решить задачу. Мне нужно превращать мультиязычные тексты неизвестной заранее длины в векторы одного размера. При этом:

1. Я не имею всех текстов заранее
2. Новые тексты могут сильно отличаться от уже известных
3. Я могу позволить на проде не сложную предобработку
4. Векторы будут использоваться для поиска похожих

Пока планирую использовать hnswlib, чтобы составлять, хранить и делать запросы к индексу.

Если это какая-то стандартизированная задача, то подскажите ее название, чтобы я мог погуглить бэйслайны.
источник

ББ

Богдан Бондарчук... in Natural Language Processing
Евгений Зубов
Привет всем.

Подскажите, пожалуйста, какой библиотекой python решить задачу. Мне нужно превращать мультиязычные тексты неизвестной заранее длины в векторы одного размера. При этом:

1. Я не имею всех текстов заранее
2. Новые тексты могут сильно отличаться от уже известных
3. Я могу позволить на проде не сложную предобработку
4. Векторы будут использоваться для поиска похожих

Пока планирую использовать hnswlib, чтобы составлять, хранить и делать запросы к индексу.

Если это какая-то стандартизированная задача, то подскажите ее название, чтобы я мог погуглить бэйслайны.
для мультиязычности сейчас крутой mT5 трансформер выпустили на huggingface<3
источник

A

Anton in Natural Language Processing
Евгений Зубов
Привет всем.

Подскажите, пожалуйста, какой библиотекой python решить задачу. Мне нужно превращать мультиязычные тексты неизвестной заранее длины в векторы одного размера. При этом:

1. Я не имею всех текстов заранее
2. Новые тексты могут сильно отличаться от уже известных
3. Я могу позволить на проде не сложную предобработку
4. Векторы будут использоваться для поиска похожих

Пока планирую использовать hnswlib, чтобы составлять, хранить и делать запросы к индексу.

Если это какая-то стандартизированная задача, то подскажите ее название, чтобы я мог погуглить бэйслайны.
Бери Universal Sentence Encoder multilingual - на выходе всегда вектор 512
источник

DD

David Dale in Natural Language Processing
Anton
Бери Universal Sentence Encoder multilingual - на выходе всегда вектор 512
Или Laser, он чутка устаревший, но качественный и ещё более мультилингвальный)
А вообще гуглить multilingual sentence embeddings.
источник

KA

Katya Artemova in Natural Language Processing
Или labse
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Спасибо, пошел сравнивать предоженные решения)
источник

SP

Sebastian Pereira in Natural Language Processing
У Laser неожиданно хорошие метрики при поиске по косинусный близости из коробки.
источник

AT

Andrey Tatarinov in Natural Language Processing
Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.

Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.

Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?
источник

E

Elena in Natural Language Processing
Character embeddings?
источник

E

Elena in Natural Language Processing
у меня нет наработок, просто первое что пришло в голову по аналогии со словами
источник

FF

Futorio Franklin in Natural Language Processing
Andrey Tatarinov
Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.

Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.

Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?
Мне кажется, что левинштейн, либо жакар на символах можно попробовать как точку отправки
источник

SD

Sergey Dulikov in Natural Language Processing
Andrey Tatarinov
Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.

Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.

Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?
locality sensitive hashing на n-граммах для приближения жакара попробуйте, с достаточно большими бакетами, а дальше брать по примеру из бакета
источник

SD

Sergey Dulikov in Natural Language Processing
источник