Size: a a a

Natural Language Processing

2021 July 06

IG

Ilya Gusev in Natural Language Processing
Дообучать - скорее действительно нет, обучать с нуля конечно можно. В вопросе было "дотренировать" возможно в значении "обучить на своих данных".
источник

C

Cyril in Natural Language Processing
тогда тут в фаворитах как раз семитские будут - там даже у местоимений разные роды бывают
и романские
источник

DS

Daria Samsonova in Natural Language Processing
в статье про грам категорию рода на англоязычной вики довольно много примеров из различных языков:
https://en.wikipedia.org/wiki/Grammatical_gender
из совсем популярных не назвали еще немецкий и в каком-то смысле английский (там категория рода хоть и сильно урезана, но все-таки существует)
источник

d

dePuff in Natural Language Processing
Читаю. Спс

PS: да, я не могу без метавежливости
источник

М

Майя in Natural Language Processing
Для модели хочу использовать "bert-base-multilingual-cased", но у меня специфический domain (документация на химикаты)
источник

IG

Ilya Gusev in Natural Language Processing
тогда по-хорошему вопрос не про эмбеддинги, надо bert на MLM доучить на датасете
источник

IG

Ilya Gusev in Natural Language Processing
источник

IG

Ilya Gusev in Natural Language Processing
там правда половину кода можно выкинуть, но суть нормально передана :)
источник

IG

Ilya Gusev in Natural Language Processing
и это будет работать, если сырых текстов правда много, иначе не особо осмысленно
источник

М

Майя in Natural Language Processing
Спасибо большое!

А насколько много сырых текстов считается достаточно много? У меня, я думаю, около 1000 документов по 15 стр. Это нет смысла?
источник

IG

Ilya Gusev in Natural Language Processing
Если прикинуть, в берт пихать максимум 250 токенов, в странице примерно 500 токенов, то есть по 30 примеров на документ. Итого 30к примеров. Попробовать кажется можно, но главное не забыть обучающую, валидационную и тестовую выборки исключить из MLM предобучения.
источник

Eg

Elena gisly in Natural Language Processing
можно еще gender-фичи посмотреть на https://wals.info/feature
источник

RS

Ruslan Sabirov in Natural Language Processing
Привет!
Хочу применить TF модель к колонке Dataframe и записать ее в другую колонку, используя батчи. Кажется, решение не очень эффективное. К тому же, хотелось бы хранить данные в формате numpy array, а не list. Можете подсказать, как улучшить?

BATCH = 128
embeddings = []

for i in tqdm(range(0, len(df), BATCH)):
   start, end = i, min(len(df), i + BATCH)
   res = model(df[start:end]['text'])
   res = tf.make_ndarray(tf.make_tensor_proto(res))
   embeddings += res.tolist()
   
df['embeddings'] = embeddings

UPD. пробовал еще с df.apply, но так выходит ~10 раз дольше
источник

М

Майя in Natural Language Processing
Спасибо большое! Попробую)
источник

d

dePuff in Natural Language Processing
Генерация текстов декодером

Кроме  beam-search, top-p, top-K есть что-нибудь вкусное?
источник

DD

David Dale in Natural Language Processing
А какой цели хочется добиться?
Если хочется перплексию поменьше, то только beam search.
Если хочется разнообразных текстов, то есть статья про diverse beam search и имплементация в huggingface, и есть варианты с переранжированием случайно сгенерированных примеров по нужной метрике.
И есть ещё куча разных мелких ручек для придания генерируемому тексту конкретных свойств, например, bad_word_ids.
источник

d

dePuff in Natural Language Processing
Хотелось узнать как много я упускаю.

Чтобы не получилось, не спросил, навелосипедил что-то поверху beam search от HF, а потом узнал, что это методы 2020 года, а нормальные ребята во всю используют SuoerHuperBeamSearch )
источник

VP

Vladimir P in Natural Language Processing
можно использовать beam search + lm, правда наверное ты это и так знал
источник

d

dePuff in Natural Language Processing
Читаю статью
https://towardsdatascience.com/boosting-your-sequence-generation-performance-with-beam-search-language-model-decoding-74ee64de435a

У меня T5 в качестве энкодера\декодера
Предварительно что-то мне говорит, что интегрировавшуюся в него LM я не побью
источник

SY

Sergey Yaroshchak in Natural Language Processing
The pixel at the top-left corner is at coordinates 0, 0. If your
источник