Телеграмм чат группы natural_language

2020 November 22

AW

Alex Wortega in Natural Language Processing

Андрей Ключаревский

Ее можно сделать. Но будет слишком топорно. Для хорошего сео нужен хороший текст как от живого эксперта

Нет

источник

15:56пожаловаться #1

НК

Николай Карпенко... in Natural Language Processing

Alexander Kukushkin

https://github.com/natasha/slovnet/tree/master/docker

GitHub

natasha/slovnet

Deep Learning based NLP modeling for Russian language - natasha/slovnet

Вот конкретно морочился час где-то чтобы хоть как-то стартануть natasha, не получилось ни через докер ни через pip install. Понятно, что у меня не хватает познаний докера и питона. Но чем мне нравится DeepPavlov - запустил докер одной строкой и работай.

источник

17:14пожаловаться #2

AK

Alexander Kukushkin in Natural Language Processing

Николай Карпенко

Вот конкретно морочился час где-то чтобы хоть как-то стартануть natasha, не получилось ни через докер ни через pip install. Понятно, что у меня не хватает познаний докера и питона. Но чем мне нравится DeepPavlov - запустил докер одной строкой и работай.

Какая ошибка?

источник

17:15пожаловаться #3

DD

David Dale in Natural Language Processing

Bogdan Salyp

Ребят, подскажите, может у кого-то была подобная задача:
В huggingface в generate есть bad_words_ids, чтобы запретить генерировать конкретные слова, но нет параметра, чтобы заставить генерировать конкретные слова в предложении. Хотелось бы с помощью Natasha искать NERом слова, которые нельзя в предложении менять и скармливать их в generate, чтобы они точно были в получившемся предложении
Есть какие-нибудь более красивые решения, чем фильтр по 100500 результатам от generate? Может особая функция ошибки, которая наказывает модель за дропнутые нужные слова? Возможно какой-то небинарный (а на отрезке) attention? Заранее спасибо)

Есть ряд решений типа guided language models или generative discriminators, там скоры языковой модели для каждого слова в словаре модифицируются с использованием маленькой дополнительной модельки, и генерация происходит из такого подкостыленного распределения. Я бы использовал что-то подобное, и в качестве костыля увеличивал бы вероятности тех токенов, которые хочется иметь в предложении.

источник

17:45пожаловаться #4

BS

Bogdan Salyp in Natural Language Processing

David Dale

Есть ряд решений типа guided language models или generative discriminators, там скоры языковой модели для каждого слова в словаре модифицируются с использованием маленькой дополнительной модельки, и генерация происходит из такого подкостыленного распределения. Я бы использовал что-то подобное, и в качестве костыля увеличивал бы вероятности тех токенов, которые хочется иметь в предложении.

Спасибо) Да, походу придётся самому изнутри переписывать generate метод и это будет самым нормальным решением

источник

17:46пожаловаться #5

DD

David Dale in Natural Language Processing

Bogdan Salyp

Спасибо) Да, походу придётся самому изнутри переписывать generate метод и это будет самым нормальным решением

Там есть ряд методов, которые generate дёргает между вычислением логитов и собственно выбором токена. Может, удастся какой-то из них подхачить.

источник

17:47пожаловаться #6

BS

Bogdan Salyp in Natural Language Processing

Ага, кастомизированный top_p сделать видимо

источник

17:48пожаловаться #7

BS

Bogdan Salyp in Natural Language Processing

Удивлён, что такой модели ещё нет если честно, надо будет после этого быстрого костыля посмотреть, можно ли как-то во время обучения делать а-ля attention, только importance, чтобы использовать его при обучении

источник

17:48пожаловаться #8

BS

Bogdan Salyp in Natural Language Processing

Что-то вроде свадьбы Natasha и GPT))

источник

17:49пожаловаться #9

DD

David Dale in Natural Language Processing

Bogdan Salyp

Удивлён, что такой модели ещё нет если честно, надо будет после этого быстрого костыля посмотреть, можно ли как-то во время обучения делать а-ля attention, только importance, чтобы использовать его при обучении

В seq2seq'ах есть copy mechanism, очень похоже

источник

17:50пожаловаться #10

BS

Bogdan Salyp in Natural Language Processing

Спасибо, уже начал гуглить

источник

17:50пожаловаться #11

EB

Evgeniy Blinov in Natural Language Processing

Добрый день. Подскажите, как бороться с переносами слов при сканировании текста через OCR?

источник