Size: a a a

Natural Language Processing

2021 September 06

RK

Roman Kazakov in Natural Language Processing
всем добрый день! подскажите, пожалуйста, сколько минимум ориентировочно нужно данных для хорошей NER модели на берте? и что можно сделать, если их слишком мало?
источник

V

Vic in Natural Language Processing
Трансформеры надо тюнить под domain тогда он точно даст результат лучше, чем любая n грам модель
источник

TL

Taras Lislisennkis in Natural Language Processing
а какого типа данные нужны?
источник

RK

Roman Kazakov in Natural Language Processing
У нас есть данные. В них размечены сущности, но их немного
источник

Е

Егорка in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @drmozg кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@mr_B1onde, @BobaZooba, Alexander Antonenko, @dePuff, @kitaiskypanda
При поддержке Золота Бородача
источник

p

ppetr in Natural Language Processing
А разве Pullenti нету для Python? https://www.pullenti.ru/Download
Тут есть ссылки, или там урезанный вариант?
источник

p

ppetr in Natural Language Processing
"Исходные коды Python получены путём автоматического конвертирования из исходников C#. Парадигмы языков близкие, поэтому структура классов и их членов практически идентична с точностью до нюансов именований, согласно соглашениям языков. Код получился функционально эквивалентным, что проверено на многочисленных Unit-тестах, также переведённых в Python и отработавших правильно. Ниже примеры даются на C#, позже исправим их на Python.

Александром Кукушкиным написана обёртка над SDK pullenti-wrapper, которая облегчает выделение именованных сущностей для программистов Python. Отметим, что туда вошли далеко не все возможности SDK, а только выделение сущностей в ограниченном объёме."
источник

p

ppetr in Natural Language Processing
А, кажется понятно о чем речь
источник

EL

Evgeniy Lashchenov in Natural Language Processing
Всем привет!

Задача такая: есть изображения где в одну строку написан текст на русском(условно, кропы из паспорта, снилс и т.д.), его надо извлечь. Есть размеченный датасет из 3 тысяч таких картинок.

Датасет довольно небольшой и вот вопрос. Какой подход лучше использовать: разбивать сначала на слова и их распознавать, либо сразу текст со всего изображения?

Любые рекоммендации и комментарии будут полезны) сейчас использую CRAFT, который разбивает на слова(но часто делает это не очень хорошо) и надо дополнительно размечать кропы по словам, а кропы с целыми предложениями плохо поддаются обучению(так как мало обучающей выборки)
источник

AO

Alex Orgish in Natural Language Processing
Сейчас PaddleOCR от Baidu вроде считается SOTA. Код тут: https://github.com/PaddlePaddle/PaddleOCR
Языковые модели тут:
https://github.com/PaddlePaddle/PaddleOCR/issues/1048
источник

EL

Evgeniy Lashchenov in Natural Language Processing
Спасибо, я посмотрю 🙂
источник

SS

Sergey Shulga in Natural Language Processing
Вообще craft сейчас sota в детекции и сегментировании на слова. Paddle в детекте проигрывает. Но craft медленный.
источник

SS

Sergey Shulga in Natural Language Processing
Русский, кстати, ужасно + не ловит ничего кроме букв. Так что про цифры и специальные знаки можно забыть.
источник

SS

Sergey Shulga in Natural Language Processing
Подскажите, а в NER английском сейчас sota - flair? Уж больно у них метрики в репе указаны высокие.
источник
2021 September 07

А

Анна in Natural Language Processing
Добрый день, кто нибудь сталкивался с тем, что BERT wordpiece в bert-multilingual_L-12_H-768_A-12 распознает не все слова?
str = "московский технический университет"
processed_sample = wordpiece.(tokenizer.([str]))
# [ Info: [["[UNK]", "[UNK]", "университет"]]
источник

AN

Aydar Nasyrov in Natural Language Processing
Буква "й" точно является одним символом?
источник

AN

Aydar Nasyrov in Natural Language Processing
Или это два символа: "и" с косой чертой сверху
источник

AN

Aydar Nasyrov in Natural Language Processing
У меня подобная проблема была для знаков препинания: многоточие, альтернативное тире, русские кавычки. Их нет в "словаре", Пришлось в датасете ручками поменять, чтобы все корректно токенизировалось
источник

AN

Aydar Nasyrov in Natural Language Processing
P.S. если моя "гипотеза" верна не будет лишним посомореть слова с буквой "ё"
источник