Size: a a a

Natural Language Processing

2020 December 07

RS

Ruslan Sabirov in Natural Language Processing
Добрый день!
GPT2Tokenizer в Hugging face Transformers использует не очень интуитивные аргументы по умолчанию для спец токенов: unk_token = <|endoftext|>, bos_token = <|endoftext|>, eos_token = <|endoftext|>.

1. Почему они все одинаковые?
2. Если запустить GPT2Tokenizer.from_pretrained() с другими значениями для unk_token & bos_token, то насколько претренированная модель сможет под это подстроиться во время файн-тьюнинга?

Ссылка на доку https://huggingface.co/transformers/model_doc/gpt2.html?highlight=gpt2tokenizer#gpt2tokenizer
источник

DM

Dungeon Master in Natural Language Processing
what model is used in this snippet? plz help
источник

SD

Sergey Dulikov in Natural Language Processing
universal-sentence-encoder-lite
источник

DM

Dungeon Master in Natural Language Processing
ok
источник

DM

Dungeon Master in Natural Language Processing
what's the role of sentencepiece here??
источник

SD

Sergey Dulikov in Natural Language Processing
tokenization
источник

ПП

Павлик Павлик... in Natural Language Processing
ребят привет.
я очень слабо знаком с nlp, но мне поставили нетривиальную задачу, которую мне кажется можно решить с помощью nlp.
у меня есть большой объем неструктурированной информации и мне надо выделить из нее такую, которая бы имела отношения к названия должности руководителя:
т.е. директор, управляющий, руководитель и т.п.
самое адекватное что я придумал - словарь.
может быть у кого были похожие задачи?
источник

SD

Sergey Dulikov in Natural Language Processing
и вам нужен NER
источник

SD

Sergey Dulikov in Natural Language Processing
надо сделать наверно пин тут, "Вам нужен NER"
источник

ПП

Павлик Павлик... in Natural Language Processing
😁
источник

SD

Sergey Dulikov in Natural Language Processing
Named Entity Recognition - выделение именованных сущностей
источник

SD

Sergey Dulikov in Natural Language Processing
Подходы есть разные, зависит от ресурсов
источник

SD

Sergey Dulikov in Natural Language Processing
если только сами слова нужны, может хватит и word2vec'а какого-нибудь предобученного, или фастекста
источник

SD

Sergey Dulikov in Natural Language Processing
По идее у таких слов должны быть близкие вектора
источник

AO

Alex Orgish in Natural Language Processing
Создать словарь всех уникальных слов из текста и выделить из них оканчивающиеся на  -ор, -ер, -щий, -тель, -ист и тд. А потом руками выбрать нужные.
источник

ПП

Павлик Павлик... in Natural Language Processing
Sergey Dulikov
если только сами слова нужны, может хватит и word2vec'а какого-нибудь предобученного, или фастекста
дело в том что исполняющий обязанности может быть и.о. и мне надо указать, что это директор
источник

ПП

Павлик Павлик... in Natural Language Processing
я вот не уверен что это возможно :)
источник

ПП

Павлик Павлик... in Natural Language Processing
и есть всякие исполняющий обязанности директора автономного образовательного комплекса имени "Степана разина".
тут как бы тоже не пойдёт просто векторизовать.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
У тебя в одном тексте только один человек и его должность надо предсказать? Или в тексте может быть несколько и надо каждого предсказать.
источник

ПП

Павлик Павлик... in Natural Language Processing
Дмитрий Симаков
У тебя в одном тексте только один человек и его должность надо предсказать? Или в тексте может быть несколько и надо каждого предсказать.
там весь текст фактически это и есть названия должностей :))
источник