Телеграмм чат группы natural_language_processing страница 1004

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2362 membersпожаловаться на группу

2021 January 13

НК

Николай Карпенко... in Natural Language Processing

Богдан Бондарчук

Друзья, добрый день! Хочу сгенерить embeddings при помощи трансформера. Данных много, и npy матрица эмбеддингов не влезает в оперативку 35ГБ. Хочется взять данных еще больше. Посоветуйте, какой сервер арендовать с 100ГБ оперативки, и разумно ли такое вообще делать?

источник

17:25пожаловаться #1

N

Natalia in Natural Language Processing

что-то новенькое вышло (якобы даже лучше stanza): https://github.com/nlp-uoregon/trankit

nlp-uoregon/trankit

Trankit is a Light-Weight Transformer-based Python Toolkit for Multilingual Natural Language Processing - nlp-uoregon/trankit

источник

18:54пожаловаться #2

N

Natalia in Natural Language Processing

http://nlp.uoregon.edu/trankit

nlp.uoregon.edu

Trankit's Demo Website

Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing

источник

18:56пожаловаться #3

2021 January 14

ББ

Богдан Бондарчук... in Natural Language Processing

Максим Ермаков

Я генсимом генерил эмбеддингов гигов на 50 - просто сделал огромный своп на SSD. Если не продакшн решение, а просто эксперимент - не вижу причин так не делать.

спасибо:)

источник

12:27пожаловаться #4

ББ

Богдан Бондарчук... in Natural Language Processing

Николай Карпенко

жаль, что там нельзя gpu поставить..

источник

12:28пожаловаться #5

AO

Alex Orgish in Natural Language Processing

Natalia

что-то новенькое вышло (якобы даже лучше stanza): https://github.com/nlp-uoregon/trankit

nlp-uoregon/trankit

Trankit is a Light-Weight Transformer-based Python Toolkit for Multilingual Natural Language Processing - nlp-uoregon/trankit

Судя по исходникам ребята просто stanza допилили.

источник

12:58пожаловаться #6

N

Natalia in Natural Language Processing

ну там в acknowledgements написано всё

источник

12:59пожаловаться #7

ЕЗ

Евгений Зубов... in Natural Language Processing

Привет всем.

Подскажите, пожалуйста, какой библиотекой python решить задачу. Мне нужно превращать мультиязычные тексты неизвестной заранее длины в векторы одного размера. При этом:

1. Я не имею всех текстов заранее
2. Новые тексты могут сильно отличаться от уже известных
3. Я могу позволить на проде не сложную предобработку
4. Векторы будут использоваться для поиска похожих

Пока планирую использовать hnswlib, чтобы составлять, хранить и делать запросы к индексу.

Если это какая-то стандартизированная задача, то подскажите ее название, чтобы я мог погуглить бэйслайны.

источник

13:41пожаловаться #8

ББ

Богдан Бондарчук... in Natural Language Processing

Евгений Зубов

Привет всем.

Подскажите, пожалуйста, какой библиотекой python решить задачу. Мне нужно превращать мультиязычные тексты неизвестной заранее длины в векторы одного размера. При этом:

1. Я не имею всех текстов заранее
2. Новые тексты могут сильно отличаться от уже известных
3. Я могу позволить на проде не сложную предобработку
4. Векторы будут использоваться для поиска похожих

Пока планирую использовать hnswlib, чтобы составлять, хранить и делать запросы к индексу.

Если это какая-то стандартизированная задача, то подскажите ее название, чтобы я мог погуглить бэйслайны.

для мультиязычности сейчас крутой mT5 трансформер выпустили на huggingface<3

источник

13:44пожаловаться #9

A

Anton in Natural Language Processing

Евгений Зубов

Привет всем.

Подскажите, пожалуйста, какой библиотекой python решить задачу. Мне нужно превращать мультиязычные тексты неизвестной заранее длины в векторы одного размера. При этом:

1. Я не имею всех текстов заранее
2. Новые тексты могут сильно отличаться от уже известных
3. Я могу позволить на проде не сложную предобработку
4. Векторы будут использоваться для поиска похожих

Пока планирую использовать hnswlib, чтобы составлять, хранить и делать запросы к индексу.

Если это какая-то стандартизированная задача, то подскажите ее название, чтобы я мог погуглить бэйслайны.

Бери Universal Sentence Encoder multilingual - на выходе всегда вектор 512

источник

13:51пожаловаться #10

DD

David Dale in Natural Language Processing

Бери Universal Sentence Encoder multilingual - на выходе всегда вектор 512

Или Laser, он чутка устаревший, но качественный и ещё более мультилингвальный)
А вообще гуглить multilingual sentence embeddings.

источник

13:53пожаловаться #11

KA

Katya Artemova in Natural Language Processing

Или labse

источник

13:57пожаловаться #12

ЕЗ

Евгений Зубов... in Natural Language Processing

Спасибо, пошел сравнивать предоженные решения)

источник

14:04пожаловаться #13

SP

Sebastian Pereira in Natural Language Processing

У Laser неожиданно хорошие метрики при поиске по косинусный близости из коробки.

источник

14:57пожаловаться #14

AT

Andrey Tatarinov in Natural Language Processing

Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.

Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.

Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?

источник

17:39пожаловаться #15

E

Elena in Natural Language Processing

Character embeddings?

источник

17:43пожаловаться #16

E

Elena in Natural Language Processing

у меня нет наработок, просто первое что пришло в голову по аналогии со словами

источник

17:44пожаловаться #17

FF

Futorio Franklin in Natural Language Processing

Andrey Tatarinov

Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.

Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.

Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?

Мне кажется, что левинштейн, либо жакар на символах можно попробовать как точку отправки

источник

17:46пожаловаться #18

SD

Sergey Dulikov in Natural Language Processing

Andrey Tatarinov

Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.

Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.

Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?

locality sensitive hashing на n-граммах для приближения жакара попробуйте, с достаточно большими бакетами, а дальше брать по примеру из бакета

источник

17:59пожаловаться #19

SD

Sergey Dulikov in Natural Language Processing

https://towardsdatascience.com/understanding-locality-sensitive-hashing-49f6d1f6134

Locality Sensitive Hashing

An effective way of reducing the dimensionality of your data

источник

18:00пожаловаться #20