Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 July 19

Andrey in Natural Language Processing

ух ты. а есть бенчмарки какие, докидывает? звучит интересно

источник

11:33пожаловаться #1

dePuff in Natural Language Processing

Я идею стащил у Ильи Гусева, https://github.com/IlyaGusev/tgcontest
И у меня она прямо полностью решила все хотелки на задаче кластеризации текстов

Я понимаю, что речь идёт о другой задаче, но попробовал бы

источник

11:39пожаловаться #2

dePuff in Natural Language Processing

Докидывало с уровня "блин, оно конечно похоже, но не так как мне нужно" до "я сам бы лучше не сделал" )

источник

11:40пожаловаться #3

dePuff in Natural Language Processing

Мы как минимум в эмбединги добавим инфы, что вот это прямо разное, а вот это нет с нашей точки зрения

источник

11:44пожаловаться #4

Vic in Natural Language Processing

Ребят, вопрос: хочется использовать 2 версии разных Huggingface - как это лучше сделать? Ставить новый Питон(версия та же) в pyenv и повторять все остальные либы Anaconda ?
Или есть способ попроще? Кроме этой одной Huggingface все остальные библиотеки те же самые останутся, ну может связанные с ней разве что обновятся на более новые.

источник

11:45пожаловаться #5

Andrey in Natural Language Processing

идея понятна, за ссылку и истррю спасибо, пошёл читать

источник

11:49пожаловаться #6

Toemik Mnemonic in Natural Language Processing

Всем привет. Я пока не знаком с большими ML дядьками типо Torch и TF, потому имею, наверное глупый вопрос. Есть модель на distilbert которая решает задачу, очень похожую на мою. https://huggingface.co/sampathkethineedi/industry-classification/tree/main Соответственно возникает вопрос где почитать про разметку данных для fine tuning предобученной модели? Как я понимаю мне нужно изучить как генерируются непосредственно файлы модели (бинарник и h5 для pytorch и tf соот-но). Кто нить сориентирует?

huggingface.co

sampathkethineedi/industry-classification at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

источник

12:21пожаловаться #7

dePuff in Natural Language Processing

Разметка данных это условно эксель-табличка с колонками (id, text, label), сохранённая как текстовый файл

Потом нейросетка долго-долго жужжит видеокартами гоняя через себя тексты и метки и у нас новый бинарник, который, возможно, умеет делать предсказания меток по текстам, что не видела ранее, лучше чем до этого

источник

12:25пожаловаться #8

dePuff in Natural Language Processing

https://mccormickml.com/2019/07/22/BERT-fine-tuning/

Здесь процесс с нуля до получения предсказаний.

В качестве данных используется некий известный размеченный кем-то набор данных.

источник

12:31пожаловаться #9

Ilya Gusev in Natural Language Processing

LaBSE, имхо. У меня есть много подтверждений, что они очень хороши.

источник

12:54пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

Поддерживаю

источник

12:57пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

По сравнению с use гуд

источник

12:57пожаловаться #12

Toemik Mnemonic in Natural Language Processing

Спасибо , изучу

источник

14:06пожаловаться #13

Toemik Mnemonic in Natural Language Processing

лол

источник

14:32пожаловаться #14

tonko 22 in Natural Language Processing

giphy.mp4

(222.9 Кб)

источник

14:33пожаловаться #15

2021 July 20

dePuff in Natural Language Processing

@banofbot

источник

01:23пожаловаться #16

Banof in Natural Language Processing

🔫 Язан Курянов кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@dePuff, Kevin Vittorio, @LoneGeek, @SaturnOleg, @toriningen
При поддержке Золота Бородача

источник

01:23пожаловаться #17

Dmitry Zmitrovich in Natural Language Processing

Да, действительно, нужно eos_token_id 2 поставить. Залили на HF исправление конфига. Спасибо!

источник

10:40пожаловаться #18

Defragmented Panda in Natural Language Processing

если мы сожмем язык в векторное пространство, так что слово - точка в нем, как сделали word2vec, при скольких измерениях этого пространства потери точности станут слишком большими?

грубо говоря так:

100к - на каждое слово по измерению. Избыточно.

1к - где-то оптимально.

10 - слова образуют кластеры которые не имеют связи, т.е. слова разные по смыслу оказываются близко, теряется точность такой модели

какое значение для этой размерности оптимально? Почему? (я видел значения около 100-1000 по-моему) Как это называется?

источник

13:44пожаловаться #19

dePuff in Natural Language Processing

Свернули в трехмерное... Разные слова слишком близко :(

Добавили измерение, помогло. Близкие с предыдущего шага раздвинули, но другие разные слова слишком близко :(

И так до 100-300 в зависимости от задачи

источник

13:49пожаловаться #20