Size: a a a

Natural Language Processing

2021 July 19

A

Andrey in Natural Language Processing
ух ты. а есть бенчмарки какие, докидывает? звучит интересно
источник

d

dePuff in Natural Language Processing
Я идею стащил у Ильи Гусева, https://github.com/IlyaGusev/tgcontest
И у меня она прямо полностью решила все хотелки на задаче кластеризации текстов

Я понимаю, что речь идёт о другой задаче, но попробовал бы
источник

d

dePuff in Natural Language Processing
Докидывало с уровня "блин, оно конечно похоже, но не так как мне нужно" до "я сам бы лучше не сделал" )
источник

d

dePuff in Natural Language Processing
Мы как минимум в эмбединги добавим инфы, что вот это прямо разное, а вот это нет с нашей точки зрения
источник

V

Vic in Natural Language Processing
Ребят, вопрос: хочется использовать 2 версии разных Huggingface - как это лучше сделать? Ставить новый Питон(версия та же) в pyenv и повторять все остальные либы Anaconda ?
Или есть способ попроще? Кроме этой одной Huggingface все остальные библиотеки те же самые останутся, ну может связанные с ней разве что обновятся на более новые.
источник

A

Andrey in Natural Language Processing
идея понятна, за ссылку и истррю спасибо, пошёл читать
источник

TM

Toemik Mnemonic in Natural Language Processing
Всем привет. Я пока не знаком с большими ML дядьками типо Torch и TF, потому имею, наверное глупый вопрос. Есть модель на distilbert которая решает задачу, очень похожую на мою. https://huggingface.co/sampathkethineedi/industry-classification/tree/main Соответственно возникает вопрос где почитать про разметку данных для fine tuning предобученной модели? Как я понимаю мне нужно изучить как генерируются непосредственно файлы модели (бинарник и h5 для pytorch и tf  соот-но). Кто нить сориентирует?
источник

d

dePuff in Natural Language Processing
Разметка данных это условно эксель-табличка с колонками (id, text, label), сохранённая как текстовый файл

Потом нейросетка долго-долго жужжит видеокартами гоняя через себя тексты и метки и у нас новый бинарник, который, возможно, умеет делать предсказания меток по текстам, что не видела ранее, лучше чем до этого
источник

d

dePuff in Natural Language Processing
https://mccormickml.com/2019/07/22/BERT-fine-tuning/

Здесь процесс с нуля до получения предсказаний.

В качестве данных используется некий известный размеченный кем-то набор данных.
источник

IG

Ilya Gusev in Natural Language Processing
LaBSE, имхо. У меня есть много подтверждений, что они очень хороши.
источник

SancheZz Мов in Natural Language Processing
Поддерживаю
источник

SancheZz Мов in Natural Language Processing
По сравнению с use гуд
источник

TM

Toemik Mnemonic in Natural Language Processing
Спасибо , изучу
источник

TM

Toemik Mnemonic in Natural Language Processing
лол
источник

t2

tonko 22 in Natural Language Processing
источник
2021 July 20

d

dePuff in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Язан Курянов кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@dePuff, Kevin Vittorio, @LoneGeek, @SaturnOleg, @toriningen
При поддержке Золота Бородача
источник

DZ

Dmitry Zmitrovich in Natural Language Processing
Да, действительно, нужно eos_token_id 2 поставить. Залили на HF исправление конфига. Спасибо!
источник

DP

Defragmented Panda in Natural Language Processing
если мы сожмем язык в векторное пространство, так что слово - точка в нем, как сделали word2vec, при скольких измерениях этого пространства потери точности станут слишком большими?

грубо говоря так:

100к - на каждое слово по измерению. Избыточно.

1к - где-то оптимально.

10 - слова образуют кластеры которые не имеют связи, т.е. слова разные по смыслу оказываются близко, теряется точность такой модели

какое значение для этой размерности оптимально? Почему? (я видел значения около 100-1000 по-моему) Как это называется?
источник

d

dePuff in Natural Language Processing
Свернули в трехмерное... Разные слова слишком близко :(

Добавили измерение, помогло. Близкие с предыдущего шага раздвинули, но другие разные слова слишком близко :(

И так до 100-300 в зависимости от задачи
источник