Size: a a a

Natural Language Processing

2021 February 08

d

dePuff in Natural Language Processing
Порядок цифр
источник

SP

Sebastian Pereira in Natural Language Processing
David Dale
Не, совсем с нуля - это жёстко.
Как бы учил его я:
- Взял бы русский BERT или даже SBERT за основу
- Взял бы какой-нибудь большой датасет с парами парафраз (если для нужного домена их нет, нагенерировал бы их переводом туда-сюда)
- Обучался бы на том же триплет лоссе, но отрицательные примеры бы брал не рандомно, а адверсариально (ближайшие по всё той же косинусной близости), иначе задача слишком лёгкая
Смотрели мастер-класс от Sberлоги они там говорят, что веса сдвинуть задача почти не реальная
источник

d

dePuff in Natural Language Processing
Лично я даже на кагле не видел в решениях свой Берт
источник

d

dePuff in Natural Language Processing
Оно, конечно, хорошо иметь ресурсы Сбера
источник

SP

Sebastian Pereira in Natural Language Processing
dePuff
Лично я даже на кагле не видел в решениях свой Берт
Потому что для решения общих задач NLU  - занятие бесполезное. Мы обучаем для «псевдоязыков» - например объявления и юридический язык - низкое лексическое разнообразие, примитивная грамматика, повторяющаяся структура.
источник

SP

Sebastian Pereira in Natural Language Processing
dePuff
Лично я даже на кагле не видел в решениях свой Берт
Для генерации последовательностей белков, по-моему, с десяток было на каком-то соревновании.
источник

d

dePuff in Natural Language Processing
А можно по ресурсам сориентировать, если несжатого текста 20Гб?
источник

SP

Sebastian Pereira in Natural Language Processing
dePuff
А сориентируй по времени/цене
Sagemaker, неделя, датасет что-то около 20 gb
источник

SP

Sebastian Pereira in Natural Language Processing
dePuff
А можно по ресурсам сориентировать, если несжатого текста 20Гб?
Так просто в лоб не получится, наверно. Зависит от того, что это за текст.
источник

d

dePuff in Natural Language Processing
Sebastian Pereira
Sagemaker, неделя, датасет что-то около 20 gb
спасибо
источник

KS

Konstantin Smith in Natural Language Processing
Igor Sitdikov
Добрый день, не могли бы подсказать русские модели NER, желательно под джаву?
источник

IS

Igor Sitdikov in Natural Language Processing
благодарю!
источник

SancheZz Мов in Natural Language Processing
David Dale
Не, совсем с нуля - это жёстко.
Как бы учил его я:
- Взял бы русский BERT или даже SBERT за основу
- Взял бы какой-нибудь большой датасет с парами парафраз (если для нужного домена их нет, нагенерировал бы их переводом туда-сюда)
- Обучался бы на том же триплет лоссе, но отрицательные примеры бы брал не рандомно, а адверсариально (ближайшие по всё той же косинусной близости), иначе задача слишком лёгкая
У нас был snli , xnli, mnli сеты переведенные
источник

SancheZz Мов in Natural Language Processing
Если посмотреть на них внимательно можно понять что там почти нет антонимов во фразах
источник

SancheZz Мов in Natural Language Processing
Но сгенерировать такое и дополнить, можно
источник

SancheZz Мов in Natural Language Processing
Насчет хард негатива по дистансу, так и делали
источник

SancheZz Мов in Natural Language Processing
Только разница в том,что если почитать статью на хабре, можно увидеть какой лосс использовали и там симилярити не косинус, а дот продакт
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
def softmax_loss(vectors):
   anc, pos, neg = vectors

   pos_sim = tf.reduce_sum((anc * pos), axis=-1, keepdims=True)
   neg_mul = tf.matmul(anc, neg, transpose_b=True)
   neg_sim = tf.log(tf.reduce_sum(tf.exp(neg_mul), axis=-1, keepdims=True))

   loss = tf.nn.relu(neg_sim - pos_sim)

   return loss
источник

SancheZz Мов in Natural Language Processing
В самой сетке нет нормализации векторов перед расчетом лосса
источник