Size: a a a

Natural Language Processing

2021 August 25

М

Майя in Natural Language Processing
Подскажите, пожалуйста, как извлечь inline image со страницы? Есть ПДФ-ка с небольшими пиктограммами и не могу понять, как их достать

Буду очень благодарна за советы
источник

VA

Vitaly Akhmadiev in Natural Language Processing
у меня 100к документов
может я переборщил с выборкой?
источник

VA

Vitaly Akhmadiev in Natural Language Processing
при этом почти в каждом документе присутствует тег ORG
т.е. плотность тегов высокая
источник

М

Майя in Natural Language Processing
Я аккуратно размечала вручную по штук 200 документов в INCEpTION, потом тренировала simpletransformers для NER и подкладывала обычный bert, f1 на всё 0.95-0.98 выходит
источник

М

Майя in Natural Language Processing
перепроверьте правильность разметки)
источник

М

Майя in Natural Language Processing
Скорее всего дело именно в ней
источник

VA

Vitaly Akhmadiev in Natural Language Processing
у меня сгенерированные документы, т.е. разметку я контролирую
источник

DD

David Dale in Natural Language Processing
Не пробовал, но выглядит как то, что нужно. Поразбираюсь, спасибо)
источник

VA

Vitaly Akhmadiev in Natural Language Processing
у меня проблема с ORG - это высокий FP, любой шум он воспринимает как организацию

Я уже добавил в документы слова-шумы (из словаря, случайные последовательности символов) и при этом по прежнему модель их считает как ORG
источник

VA

Vitaly Akhmadiev in Natural Language Processing
обща f1 89-90, но это за счет других тегов
источник

М

Майя in Natural Language Processing
Ну попробуйте ради интереса взять https://simpletransformers.ai/docs/ner-model/ подложить русскоязычный берт и потестить, что будет.
источник

М

Майя in Natural Language Processing
Можете, пожалуйста, подсказать, кто-то сталкивался вытащить картинки-пиктограммы как на 1-ой странице такой PDF-ки? Я сильно застряла с этим
источник

VA

Vitaly Akhmadiev in Natural Language Processing
спасибо, попробую
источник

VA

Vitaly Akhmadiev in Natural Language Processing
А скажите, в каких случаях надо замораживать слои?
У меня добавились новые теги для обучения.
Нужно ли мне делать заморозку?

Может глупые вопросы задаю, но я пока только начинаю в nlp-задачах
источник

DD

David Dale in Natural Language Processing
Заморозка слоёв нужна в двух случаях:
1) Чтобы обучаться побыстрее, т.к.  меньше градиентов нужно вычислять
2) Чтобы меньше переобучаться:
2.1. Если обучающая выборка очень маленькая, и потому об неё переобучиться легко
2.2. Если планируется domain shift, например, мультиязычный BERT файн-тюнится на английских данных, а применять его хочется и на других языках.
источник

VA

Vitaly Akhmadiev in Natural Language Processing
а может недообучиться из-за заморозки?
источник

DD

David Dale in Natural Language Processing
Да, конечно
источник

VA

Vitaly Akhmadiev in Natural Language Processing
это решается объемом выборки?
источник

VA

Vitaly Akhmadiev in Natural Language Processing
я просто не заметил у себя разницу на 100к и на 300к по качеству
источник

d

dePuff in Natural Language Processing
Думаю вопрос ещё качества документов на фоне тех, как оригинальную модель учили
источник