Телеграмм чат группы natural_language

0.02 бакса за гигабайт на васт.аи трафик, в среднем. Терабайт просто закачать это уже 20$. Тут вполне могут быть выгоднее более дорогие сервисы, но с анлимом по сетке

источник

19:41пожаловаться #13

ЯЗ

Я — пехотинец Владим... in Natural Language Processing

Sergey Dulikov

Терабайт текста это жестко, даже gpt-3 на меньшем корпусе учили

Сбер на 600 Гб его обучал, вроде

источник

20:47пожаловаться #14

2020 November 08

MG

Mikhail Gorshkov in Natural Language Processing

Yuri Baburov

Там только диска мало было для некоторых задач. (Я ни одного инстанса с терабайтным диском не нашёл). А так -- хорош, да.

Если интересно, ищу 1-2 датасайентиста для сдачи в аренду своего сервера. Карточка 2080ti, интернет 100 мбит, хард 16Тб RAID1. Оператива 32Гб.
Доступ через shell и веб-интерфейс (jupyter).
Пока собираю желающих. Настрою софт на сл неделе.
Оплата постфактум, когда закончите обсчёт своей задачи. Можно тоже $0.2/час, но деньги в принципе не самоцель.

источник

11:31пожаловаться #15

SZ

Sergey Zhuravlev in Natural Language Processing

Добрый день. Поделитесь плиз опытом. Есть задача в реальном времени быстро находить бренд в строке. Вопрос не в том каким образом его находить (через левенштейна, регулярки, словари и т.д.), а в том, какой способ позволит делать это максимально быстро, при условии что есть таблица в БД с брендами на несколько сотен тысяч записей. На вход подается строка, в которой может присутствовать бренд. Сейчас я для скорости подгружаю бренды в редис, чтобы искать в оперативке. Но может есть какой то общий правильный подход чтобы было не O(n), а быстрее, может можно как то векторизовать это все и держать в заранее подгруженной модели. Из того что пробовал: https://bergvca.github.io/2017/10/14/super-fast-string-matching.html и его инструмент string_grouper https://github.com/Bergvca/string_grouper

bergvca.github.io

Super Fast String Matching in Python

Traditional approaches to string matching such as the Jaro-Winkler or Levenshtein distance measure are too slow for large datasets. Using TF-IDF with N-Grams...

источник

12:24пожаловаться #16

MО

Miss Очепятка... in Natural Language Processing

Sergey Zhuravlev

Добрый день. Поделитесь плиз опытом. Есть задача в реальном времени быстро находить бренд в строке. Вопрос не в том каким образом его находить (через левенштейна, регулярки, словари и т.д.), а в том, какой способ позволит делать это максимально быстро, при условии что есть таблица в БД с брендами на несколько сотен тысяч записей. На вход подается строка, в которой может присутствовать бренд. Сейчас я для скорости подгружаю бренды в редис, чтобы искать в оперативке. Но может есть какой то общий правильный подход чтобы было не O(n), а быстрее, может можно как то векторизовать это все и держать в заранее подгруженной модели. Из того что пробовал: https://bergvca.github.io/2017/10/14/super-fast-string-matching.html и его инструмент string_grouper https://github.com/Bergvca/string_grouper

bergvca.github.io

Super Fast String Matching in Python

Traditional approaches to string matching such as the Jaro-Winkler or Levenshtein distance measure are too slow for large datasets. Using TF-IDF with N-Grams...

Строите DFA

источник

12:36пожаловаться #17

MО

Miss Очепятка... in Natural Language Processing

https://swtch.com/~rsc/regexp/regexp1.html

источник

12:36пожаловаться #18

MО