Телеграмм чат группы natural_language

Порядок цифр

09:54пожаловаться #1

SP

David Dale

Не, совсем с нуля - это жёстко.
Как бы учил его я:
- Взял бы русский BERT или даже SBERT за основу
- Взял бы какой-нибудь большой датасет с парами парафраз (если для нужного домена их нет, нагенерировал бы их переводом туда-сюда)
- Обучался бы на том же триплет лоссе, но отрицательные примеры бы брал не рандомно, а адверсариально (ближайшие по всё той же косинусной близости), иначе задача слишком лёгкая

Смотрели мастер-класс от Sberлоги они там говорят, что веса сдвинуть задача почти не реальная

09:54пожаловаться #2

d

Лично я даже на кагле не видел в решениях свой Берт

09:56пожаловаться #3

d

Оно, конечно, хорошо иметь ресурсы Сбера

09:57пожаловаться #4

SP

Лично я даже на кагле не видел в решениях свой Берт

Потому что для решения общих задач NLU - занятие бесполезное. Мы обучаем для «псевдоязыков» - например объявления и юридический язык - низкое лексическое разнообразие, примитивная грамматика, повторяющаяся структура.

09:59пожаловаться #5

SP

Лично я даже на кагле не видел в решениях свой Берт

Для генерации последовательностей белков, по-моему, с десяток было на каком-то соревновании.

10:00пожаловаться #6

d

А можно по ресурсам сориентировать, если несжатого текста 20Гб?

10:01пожаловаться #7

SP

А сориентируй по времени/цене

Sagemaker, неделя, датасет что-то около 20 gb

10:01пожаловаться #8

SP

А можно по ресурсам сориентировать, если несжатого текста 20Гб?

Так просто в лоб не получится, наверно. Зависит от того, что это за текст.

10:02пожаловаться #9

d

Sebastian Pereira

Sagemaker, неделя, датасет что-то около 20 gb

спасибо

Konstantin Smith in Natural Language Processing

10:03пожаловаться #10

KS

Igor Sitdikov

Добрый день, не могли бы подсказать русские модели NER, желательно под джаву?

см. pullenti.ru

Igor Sitdikov in Natural Language Processing

12:13пожаловаться #11

IS

Konstantin Smith

см. pullenti.ru

благодарю!

12:15пожаловаться #12

SМ

David Dale

Не, совсем с нуля - это жёстко.
Как бы учил его я:
- Взял бы русский BERT или даже SBERT за основу
- Взял бы какой-нибудь большой датасет с парами парафраз (если для нужного домена их нет, нагенерировал бы их переводом туда-сюда)
- Обучался бы на том же триплет лоссе, но отрицательные примеры бы брал не рандомно, а адверсариально (ближайшие по всё той же косинусной близости), иначе задача слишком лёгкая

У нас был snli , xnli, mnli сеты переведенные

14:40пожаловаться #13

SМ

Если посмотреть на них внимательно можно понять что там почти нет антонимов во фразах

14:41пожаловаться #14

SМ

Но сгенерировать такое и дополнить, можно

14:41пожаловаться #15

SМ

Насчет хард негатива по дистансу, так и делали

14:42пожаловаться #16

SМ

Только разница в том,что если почитать статью на хабре, можно увидеть какой лосс использовали и там симилярити не косинус, а дот продакт

14:43пожаловаться #17

SМ

@dePuff

14:44пожаловаться #18

SМ

def softmax_loss(vectors):
anc, pos, neg = vectors

pos_sim = tf.reduce_sum((anc * pos), axis=-1, keepdims=True)
neg_mul = tf.matmul(anc, neg, transpose_b=True)
neg_sim = tf.log(tf.reduce_sum(tf.exp(neg_mul), axis=-1, keepdims=True))

loss = tf.nn.relu(neg_sim - pos_sim)

return loss

14:44пожаловаться #19

SМ

В самой сетке нет нормализации векторов перед расчетом лосса