Телеграмм чат группы natural_language_processing страница 961

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2247 membersпожаловаться на группу

2020 December 07

RS

Ruslan Sabirov in Natural Language Processing

Добрый день!
GPT2Tokenizer в Hugging face Transformers использует не очень интуитивные аргументы по умолчанию для спец токенов: unk_token = <|endoftext|>, bos_token = <|endoftext|>, eos_token = <|endoftext|>.

1. Почему они все одинаковые?
2. Если запустить GPT2Tokenizer.from_pretrained() с другими значениями для unk_token & bos_token, то насколько претренированная модель сможет под это подстроиться во время файн-тьюнинга?

Ссылка на доку https://huggingface.co/transformers/model_doc/gpt2.html?highlight=gpt2tokenizer#gpt2tokenizer

источник

16:11пожаловаться #1

DM

Dungeon Master in Natural Language Processing

what model is used in this snippet? plz help

источник

16:34пожаловаться #2

SD

Sergey Dulikov in Natural Language Processing

universal-sentence-encoder-lite

источник

17:08пожаловаться #3

DM

Dungeon Master in Natural Language Processing

ok

источник

17:16пожаловаться #4

DM

Dungeon Master in Natural Language Processing

what's the role of sentencepiece here??

источник

17:16пожаловаться #5

SD

Sergey Dulikov in Natural Language Processing

tokenization

источник

17:32пожаловаться #6

ПП

Павлик Павлик... in Natural Language Processing

ребят привет.
я очень слабо знаком с nlp, но мне поставили нетривиальную задачу, которую мне кажется можно решить с помощью nlp.
у меня есть большой объем неструктурированной информации и мне надо выделить из нее такую, которая бы имела отношения к названия должности руководителя:
т.е. директор, управляющий, руководитель и т.п.
самое адекватное что я придумал - словарь.
может быть у кого были похожие задачи?

источник

17:34пожаловаться #7

SD

Sergey Dulikov in Natural Language Processing

и вам нужен NER

источник

17:35пожаловаться #8

SD

Sergey Dulikov in Natural Language Processing

надо сделать наверно пин тут, "Вам нужен NER"

источник

17:35пожаловаться #9

ПП

Павлик Павлик... in Natural Language Processing

😁

источник

17:35пожаловаться #10

SD

Sergey Dulikov in Natural Language Processing

Named Entity Recognition - выделение именованных сущностей

источник

17:35пожаловаться #11

SD

Sergey Dulikov in Natural Language Processing

Подходы есть разные, зависит от ресурсов

источник

17:35пожаловаться #12

SD

Sergey Dulikov in Natural Language Processing

если только сами слова нужны, может хватит и word2vec'а какого-нибудь предобученного, или фастекста

источник

17:36пожаловаться #13

SD

Sergey Dulikov in Natural Language Processing

По идее у таких слов должны быть близкие вектора

источник

17:37пожаловаться #14

AO

Alex Orgish in Natural Language Processing

Создать словарь всех уникальных слов из текста и выделить из них оканчивающиеся на -ор, -ер, -щий, -тель, -ист и тд. А потом руками выбрать нужные.

источник

17:45пожаловаться #15

ПП

Павлик Павлик... in Natural Language Processing

если только сами слова нужны, может хватит и word2vec'а какого-нибудь предобученного, или фастекста

дело в том что исполняющий обязанности может быть и.о. и мне надо указать, что это директор

источник

17:51пожаловаться #16

ПП

Павлик Павлик... in Natural Language Processing

я вот не уверен что это возможно :)

источник

17:51пожаловаться #17

ПП

Павлик Павлик... in Natural Language Processing

и есть всякие исполняющий обязанности директора автономного образовательного комплекса имени "Степана разина".
тут как бы тоже не пойдёт просто векторизовать.

источник

17:54пожаловаться #18

ДС

Дмитрий Симаков... in Natural Language Processing

У тебя в одном тексте только один человек и его должность надо предсказать? Или в тексте может быть несколько и надо каждого предсказать.

источник

17:55пожаловаться #19

ПП

Павлик Павлик... in Natural Language Processing

Дмитрий Симаков

У тебя в одном тексте только один человек и его должность надо предсказать? Или в тексте может быть несколько и надо каждого предсказать.

там весь текст фактически это и есть названия должностей :))

источник

17:59пожаловаться #20