Size: a a a

Natural Language Processing

2020 November 22

AW

Alex Wortega in Natural Language Processing
Андрей Ключаревский
Ее можно сделать. Но будет слишком топорно. Для хорошего сео нужен хороший текст как от живого эксперта
Нет
источник

НК

Николай Карпенко... in Natural Language Processing
Вот конкретно морочился час где-то чтобы хоть как-то стартануть natasha, не получилось ни через докер ни через pip install. Понятно, что у меня не хватает познаний докера и питона.  Но чем мне нравится DeepPavlov - запустил докер одной строкой и работай.
источник

AK

Alexander Kukushkin in Natural Language Processing
Николай Карпенко
Вот конкретно морочился час где-то чтобы хоть как-то стартануть natasha, не получилось ни через докер ни через pip install. Понятно, что у меня не хватает познаний докера и питона.  Но чем мне нравится DeepPavlov - запустил докер одной строкой и работай.
Какая ошибка?
источник

DD

David Dale in Natural Language Processing
Bogdan Salyp
Ребят, подскажите, может у кого-то была подобная задача:
В huggingface в generate есть bad_words_ids, чтобы запретить генерировать конкретные слова, но нет параметра, чтобы заставить генерировать конкретные слова в предложении. Хотелось бы с помощью Natasha искать NERом слова, которые нельзя в предложении менять и скармливать их в generate, чтобы они точно были в получившемся предложении
Есть какие-нибудь более красивые решения, чем фильтр по 100500 результатам от generate? Может особая функция ошибки, которая наказывает модель за дропнутые нужные слова? Возможно какой-то небинарный (а на отрезке) attention? Заранее спасибо)
Есть ряд решений типа guided language models или generative discriminators, там скоры языковой модели для каждого слова в словаре модифицируются с использованием маленькой дополнительной модельки, и генерация происходит из такого подкостыленного распределения. Я бы использовал что-то подобное, и в качестве костыля увеличивал бы вероятности тех токенов, которые хочется иметь в предложении.
источник

BS

Bogdan Salyp in Natural Language Processing
David Dale
Есть ряд решений типа guided language models или generative discriminators, там скоры языковой модели для каждого слова в словаре модифицируются с использованием маленькой дополнительной модельки, и генерация происходит из такого подкостыленного распределения. Я бы использовал что-то подобное, и в качестве костыля увеличивал бы вероятности тех токенов, которые хочется иметь в предложении.
Спасибо) Да, походу придётся самому изнутри переписывать generate метод и это будет самым нормальным решением
источник

DD

David Dale in Natural Language Processing
Bogdan Salyp
Спасибо) Да, походу придётся самому изнутри переписывать generate метод и это будет самым нормальным решением
Там есть ряд методов, которые generate дёргает между вычислением логитов и собственно выбором токена. Может, удастся какой-то из них подхачить.
источник

BS

Bogdan Salyp in Natural Language Processing
Ага, кастомизированный top_p сделать видимо
источник

BS

Bogdan Salyp in Natural Language Processing
Удивлён, что такой модели ещё нет если честно, надо будет после этого быстрого костыля посмотреть, можно ли как-то во время обучения делать а-ля attention, только importance, чтобы использовать его при обучении
источник

BS

Bogdan Salyp in Natural Language Processing
Что-то вроде свадьбы Natasha и GPT))
источник

DD

David Dale in Natural Language Processing
Bogdan Salyp
Удивлён, что такой модели ещё нет если честно, надо будет после этого быстрого костыля посмотреть, можно ли как-то во время обучения делать а-ля attention, только importance, чтобы использовать его при обучении
В seq2seq'ах есть copy mechanism, очень похоже
источник

BS

Bogdan Salyp in Natural Language Processing
Спасибо, уже начал гуглить
источник

EB

Evgeniy Blinov in Natural Language Processing
Добрый день. Подскажите, как бороться с переносами слов при сканировании текста через OCR?
источник

OS

Oleg Serikov in Natural Language Processing
Evgeniy Blinov
Добрый день. Подскажите, как бороться с переносами слов при сканировании текста через OCR?
рулами?
источник

EB

Evgeniy Blinov in Natural Language Processing
Oleg Serikov
рулами?
Это как?
источник

OS

Oleg Serikov in Natural Language Processing
if такая-то фигня
cклеить в одно слово
источник

EB

Evgeniy Blinov in Natural Language Processing
Oleg Serikov
if такая-то фигня
cклеить в одно слово
Это понятно
источник

EB

Evgeniy Blinov in Natural Language Processing
А есть либа, которая может взять набор букв, и определить, слово это или нет?
источник

OS

Oleg Serikov in Natural Language Processing
мне на ум в качестве дешёвого хака приходит GET "https://ru.wiktionary.org/wiki/слово"
источник

EB

Evgeniy Blinov in Natural Language Processing
Oleg Serikov
мне на ум в качестве дешёвого хака приходит GET "https://ru.wiktionary.org/wiki/слово"
Забавно
источник

EB

Evgeniy Blinov in Natural Language Processing
А оффлайн есть идеи?
источник