Телеграмм чат группы natural_language_processing страница 1420

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 September 06

RK

Roman Kazakov in Natural Language Processing

всем добрый день! подскажите, пожалуйста, сколько минимум ориентировочно нужно данных для хорошей NER модели на берте? и что можно сделать, если их слишком мало?

источник

09:43пожаловаться #1

V

Vic in Natural Language Processing

Трансформеры надо тюнить под domain тогда он точно даст результат лучше, чем любая n грам модель

источник

09:50пожаловаться #2

TL

Taras Lislisennkis in Natural Language Processing

а какого типа данные нужны?

источник

09:51пожаловаться #3

RK

Roman Kazakov in Natural Language Processing

У нас есть данные. В них размечены сущности, но их немного

источник

10:14пожаловаться #4

Е

Егорка in Natural Language Processing

источник

12:51пожаловаться #5

B

Banof in Natural Language Processing

🔫 @drmozg кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@mr_B1onde, @BobaZooba, Alexander Antonenko, @dePuff, @kitaiskypanda
При поддержке Золота Бородача

источник

12:51пожаловаться #6

p

ppetr in Natural Language Processing

А разве Pullenti нету для Python? https://www.pullenti.ru/Download
Тут есть ссылки, или там урезанный вариант?

источник

13:17пожаловаться #7

p

ppetr in Natural Language Processing

"Исходные коды Python получены путём автоматического конвертирования из исходников C#. Парадигмы языков близкие, поэтому структура классов и их членов практически идентична с точностью до нюансов именований, согласно соглашениям языков. Код получился функционально эквивалентным, что проверено на многочисленных Unit-тестах, также переведённых в Python и отработавших правильно. Ниже примеры даются на C#, позже исправим их на Python.

Александром Кукушкиным написана обёртка над SDK pullenti-wrapper, которая облегчает выделение именованных сущностей для программистов Python. Отметим, что туда вошли далеко не все возможности SDK, а только выделение сущностей в ограниченном объёме."

источник

13:20пожаловаться #8

p

ppetr in Natural Language Processing

А, кажется понятно о чем речь

источник

13:20пожаловаться #9

EL

Evgeniy Lashchenov in Natural Language Processing

Всем привет!

Задача такая: есть изображения где в одну строку написан текст на русском(условно, кропы из паспорта, снилс и т.д.), его надо извлечь. Есть размеченный датасет из 3 тысяч таких картинок.

Датасет довольно небольшой и вот вопрос. Какой подход лучше использовать: разбивать сначала на слова и их распознавать, либо сразу текст со всего изображения?

Любые рекоммендации и комментарии будут полезны) сейчас использую CRAFT, который разбивает на слова(но часто делает это не очень хорошо) и надо дополнительно размечать кропы по словам, а кропы с целыми предложениями плохо поддаются обучению(так как мало обучающей выборки)

источник

17:27пожаловаться #10

AO

Alex Orgish in Natural Language Processing

Сейчас PaddleOCR от Baidu вроде считается SOTA. Код тут: https://github.com/PaddlePaddle/PaddleOCR
Языковые модели тут:
https://github.com/PaddlePaddle/PaddleOCR/issues/1048

источник

17:44пожаловаться #11

EL

Evgeniy Lashchenov in Natural Language Processing

Спасибо, я посмотрю 🙂

источник

17:57пожаловаться #12

SS

Sergey Shulga in Natural Language Processing

Вообще craft сейчас sota в детекции и сегментировании на слова. Paddle в детекте проигрывает. Но craft медленный.

источник

20:11пожаловаться #13

SS

Sergey Shulga in Natural Language Processing

Русский, кстати, ужасно + не ловит ничего кроме букв. Так что про цифры и специальные знаки можно забыть.

источник

20:15пожаловаться #14

SS

Sergey Shulga in Natural Language Processing

Подскажите, а в NER английском сейчас sota - flair? Уж больно у них метрики в репе указаны высокие.

источник

20:17пожаловаться #15

2021 September 07

А

Анна in Natural Language Processing

Добрый день, кто нибудь сталкивался с тем, что BERT wordpiece в bert-multilingual_L-12_H-768_A-12 распознает не все слова?

str = "московский технический университет"
processed_sample = wordpiece.(tokenizer.([str]))
# [ Info: [["[UNK]", "[UNK]", "университет"]]

источник

09:21пожаловаться #16

AN

Aydar Nasyrov in Natural Language Processing

Буква "й" точно является одним символом?

источник

09:23пожаловаться #17

AN

Aydar Nasyrov in Natural Language Processing

Или это два символа: "и" с косой чертой сверху

источник

09:24пожаловаться #18

AN

Aydar Nasyrov in Natural Language Processing

У меня подобная проблема была для знаков препинания: многоточие, альтернативное тире, русские кавычки. Их нет в "словаре", Пришлось в датасете ручками поменять, чтобы все корректно токенизировалось

источник

09:26пожаловаться #19

AN

Aydar Nasyrov in Natural Language Processing

P.S. если моя "гипотеза" верна не будет лишним посомореть слова с буквой "ё"

источник

09:27пожаловаться #20