Телеграмм чат группы natural_language_processing страница 1399

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 August 25

М

Майя in Natural Language Processing

Подскажите, пожалуйста, как извлечь inline image со страницы? Есть ПДФ-ка с небольшими пиктограммами и не могу понять, как их достать

Буду очень благодарна за советы

источник

14:35пожаловаться #1

VA

Vitaly Akhmadiev in Natural Language Processing

у меня 100к документов
может я переборщил с выборкой?

источник

14:36пожаловаться #2

VA

Vitaly Akhmadiev in Natural Language Processing

при этом почти в каждом документе присутствует тег ORG
т.е. плотность тегов высокая

источник

14:38пожаловаться #3

М

Майя in Natural Language Processing

Я аккуратно размечала вручную по штук 200 документов в INCEpTION, потом тренировала simpletransformers для NER и подкладывала обычный bert, f1 на всё 0.95-0.98 выходит

источник

14:38пожаловаться #4

М

Майя in Natural Language Processing

перепроверьте правильность разметки)

источник

14:39пожаловаться #5

М

Майя in Natural Language Processing

Скорее всего дело именно в ней

источник

14:39пожаловаться #6

VA

Vitaly Akhmadiev in Natural Language Processing

у меня сгенерированные документы, т.е. разметку я контролирую

источник

14:40пожаловаться #7

DD

David Dale in Natural Language Processing

Не пробовал, но выглядит как то, что нужно. Поразбираюсь, спасибо)

источник

14:42пожаловаться #8

VA

Vitaly Akhmadiev in Natural Language Processing

у меня проблема с ORG - это высокий FP, любой шум он воспринимает как организацию

Я уже добавил в документы слова-шумы (из словаря, случайные последовательности символов) и при этом по прежнему модель их считает как ORG

источник

14:42пожаловаться #9

VA

Vitaly Akhmadiev in Natural Language Processing

обща f1 89-90, но это за счет других тегов

источник

14:43пожаловаться #10

М

Майя in Natural Language Processing

Ну попробуйте ради интереса взять https://simpletransformers.ai/docs/ner-model/ подложить русскоязычный берт и потестить, что будет.

Simple Transformers

NERModel for named entity recognition.

источник

14:45пожаловаться #11

М

Майя in Natural Language Processing

1000252_ZCHU21SETGF_UN1219_VGII_NAG.pdf

Можете, пожалуйста, подсказать, кто-то сталкивался вытащить картинки-пиктограммы как на 1-ой странице такой PDF-ки? Я сильно застряла с этим

источник

14:46пожаловаться #12

VA

Vitaly Akhmadiev in Natural Language Processing

спасибо, попробую

источник

14:50пожаловаться #13

VA

Vitaly Akhmadiev in Natural Language Processing

А скажите, в каких случаях надо замораживать слои?
У меня добавились новые теги для обучения.
Нужно ли мне делать заморозку?

Может глупые вопросы задаю, но я пока только начинаю в nlp-задачах

источник

16:20пожаловаться #14

DD

David Dale in Natural Language Processing

Заморозка слоёв нужна в двух случаях:
1) Чтобы обучаться побыстрее, т.к. меньше градиентов нужно вычислять
2) Чтобы меньше переобучаться:
2.1. Если обучающая выборка очень маленькая, и потому об неё переобучиться легко
2.2. Если планируется domain shift, например, мультиязычный BERT файн-тюнится на английских данных, а применять его хочется и на других языках.

источник

16:26пожаловаться #15

VA

Vitaly Akhmadiev in Natural Language Processing

а может недообучиться из-за заморозки?

источник

16:28пожаловаться #16

DD

David Dale in Natural Language Processing

Да, конечно

источник

16:30пожаловаться #17

VA

Vitaly Akhmadiev in Natural Language Processing

это решается объемом выборки?

источник

16:30пожаловаться #18

VA

Vitaly Akhmadiev in Natural Language Processing

я просто не заметил у себя разницу на 100к и на 300к по качеству

источник

16:30пожаловаться #19

d

dePuff in Natural Language Processing

Думаю вопрос ещё качества документов на фоне тех, как оригинальную модель учили

источник

19:13пожаловаться #20