Size: a a a

Natural Language Processing

2020 November 07

FF

Futorio Franklin in Natural Language Processing
Интересно, а можно пачку данных загрузить в рам и пока на ней ведётся обучение, скачивать другую по сети на диск
источник

FF

Futorio Franklin in Natural Language Processing
Или как-то по-другому обойти это ограничение
источник

SD

Sergey Dulikov in Natural Language Processing
Можно просто примонтировать туда свой диск
источник

SD

Sergey Dulikov in Natural Language Processing
через sshfs
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Dulikov
через sshfs
о, ну хоть какой-то вариант, спасибо. но какая будет скорость тогда? сетку не научить, если ей действительно много данных надо.
источник

SD

Sergey Dulikov in Natural Language Processing
Ну упирается в скорость сети, да
источник

AP

Alex Peresmeshnik in Natural Language Processing
Yuri Baburov
о, ну хоть какой-то вариант, спасибо. но какая будет скорость тогда? сетку не научить, если ей действительно много данных надо.
ограниченая пропускной возможностью сети
источник

YB

Yuri Baburov in Natural Language Processing
Alex Peresmeshnik
ограниченая пропускной возможностью сети
картинки читаются >100 мбайт/сек обычно. звук ну 40 мбайт/сек, там может хватит если аккуратно делать. а для текста хватит.
источник

SD

Sergey Dulikov in Natural Language Processing
Терабайт текста это жестко, даже gpt-3 на меньшем корпусе учили
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Dulikov
Терабайт текста это жестко, даже gpt-3 на меньшем корпусе учили
да, верно, для текста хватит и хранилища.
источник

AP

Alex Peresmeshnik in Natural Language Processing
Yuri Baburov
картинки читаются >100 мбайт/сек обычно. звук ну 40 мбайт/сек, там может хватит если аккуратно делать. а для текста хватит.
Там дело такое, если сеть гиговая - то будет упираться в жесткий диск и пинг сети
источник

PV

Peter Vanin in Natural Language Processing
О, кстати, а есть ли в Москве ноды с гигом не за конские цены? Гарантия не нужна
источник

bx

berkut x in Natural Language Processing
0.02 бакса за гигабайт на васт.аи трафик, в среднем. Терабайт просто закачать это уже 20$. Тут вполне могут быть выгоднее более дорогие сервисы, но с анлимом по сетке
источник

ЯЗ

Я — пехотинец Владим... in Natural Language Processing
Sergey Dulikov
Терабайт текста это жестко, даже gpt-3 на меньшем корпусе учили
Сбер на 600 Гб его обучал, вроде
источник
2020 November 08

MG

Mikhail Gorshkov in Natural Language Processing
Yuri Baburov
Там только диска мало было для некоторых задач. (Я ни одного инстанса с терабайтным диском не нашёл). А так -- хорош, да.
Если интересно, ищу 1-2 датасайентиста для сдачи в аренду своего сервера. Карточка 2080ti, интернет 100 мбит, хард 16Тб RAID1. Оператива 32Гб.
Доступ через shell и веб-интерфейс (jupyter).
Пока собираю желающих. Настрою софт на сл неделе.
Оплата постфактум, когда закончите обсчёт своей задачи. Можно тоже $0.2/час, но деньги в принципе не самоцель.
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Добрый день. Поделитесь плиз опытом. Есть задача в реальном времени быстро находить бренд в строке. Вопрос не в том каким образом его находить (через левенштейна, регулярки, словари и т.д.), а в том, какой способ позволит делать это максимально быстро, при условии что есть таблица в БД с брендами на несколько сотен тысяч записей. На вход подается строка, в которой может присутствовать бренд. Сейчас я для скорости подгружаю бренды в редис, чтобы искать в оперативке. Но может есть какой то  общий правильный подход чтобы было не O(n), а быстрее, может можно как то векторизовать это все и держать в заранее подгруженной модели. Из того что пробовал: https://bergvca.github.io/2017/10/14/super-fast-string-matching.html и его инструмент string_grouper https://github.com/Bergvca/string_grouper
источник

Miss Очепятка... in Natural Language Processing
Sergey Zhuravlev
Добрый день. Поделитесь плиз опытом. Есть задача в реальном времени быстро находить бренд в строке. Вопрос не в том каким образом его находить (через левенштейна, регулярки, словари и т.д.), а в том, какой способ позволит делать это максимально быстро, при условии что есть таблица в БД с брендами на несколько сотен тысяч записей. На вход подается строка, в которой может присутствовать бренд. Сейчас я для скорости подгружаю бренды в редис, чтобы искать в оперативке. Но может есть какой то  общий правильный подход чтобы было не O(n), а быстрее, может можно как то векторизовать это все и держать в заранее подгруженной модели. Из того что пробовал: https://bergvca.github.io/2017/10/14/super-fast-string-matching.html и его инструмент string_grouper https://github.com/Bergvca/string_grouper
Строите DFA
источник

Miss Очепятка... in Natural Language Processing
источник

Miss Очепятка... in Natural Language Processing
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Спасибо, почитаю
источник