Size: a a a

Natural Language Processing

2020 December 07

ДС

Дмитрий Симаков... in Natural Language Processing
Max Kuznetsov
Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.
А есть в опенсорсе?
источник

MK

Max Kuznetsov in Natural Language Processing
Дмитрий Симаков
А есть в опенсорсе?
Пока нет. Но можно обсудить.
источник

MK

Max Kuznetsov in Natural Language Processing
Sergei Markoff
Ещё можно докинуть.
👍🏿 отпишусь утром.
источник

AT

Anastasia Tretyakova in Natural Language Processing
Всем привет, подскажите пожалуйста)
У меня вопрос, касаемый грузинского или как минимум английского языка
можно ли как-то обучать модель, чтобы она понимала, что Иван, Петя и тд -> имя и сама могла находить имя в каком-то документе?
или реальна пока реализовать, когда мы просто накладываем фильтр(ограничиваем область) и распознает этот кусочек?
источник

ВГ

Вадим Гилемзянов... in Natural Language Processing
Anastasia Tretyakova
Всем привет, подскажите пожалуйста)
У меня вопрос, касаемый грузинского или как минимум английского языка
можно ли как-то обучать модель, чтобы она понимала, что Иван, Петя и тд -> имя и сама могла находить имя в каком-то документе?
или реальна пока реализовать, когда мы просто накладываем фильтр(ограничиваем область) и распознает этот кусочек?
slot filling? - вообще в spacy/ fastText есть NER
источник

GF

Grigory Frantsuzov in Natural Language Processing
Anastasia Tretyakova
Всем привет, подскажите пожалуйста)
У меня вопрос, касаемый грузинского или как минимум английского языка
можно ли как-то обучать модель, чтобы она понимала, что Иван, Петя и тд -> имя и сама могла находить имя в каком-то документе?
или реальна пока реализовать, когда мы просто накладываем фильтр(ограничиваем область) и распознает этот кусочек?
то что вы ищите называется NER (Named Entity Recognition)

Для английского языка существуешь довольно много отлично работающих решений
источник

GF

Grigory Frantsuzov in Natural Language Processing
с грузинским языком сложнее, но я думаю что тоже есть (по крайней мере в рамках мультиязычных библиотек)
источник

AT

Anastasia Tretyakova in Natural Language Processing
если мне именно не имена надо распозновать, а  распозонвать символы/слова, и выделять их в отдельные блоки данных
то это тоже NER?
источник

GF

Grigory Frantsuzov in Natural Language Processing
Anastasia Tretyakova
если мне именно не имена надо распозновать, а  распозонвать символы/слова, и выделять их в отдельные блоки данных
то это тоже NER?
Named Entity Recognition это в основном про имена, топонимы, адреса и так далее, можно обычно как-то дообучить или добавить на свой типе Entity.

Очень абстрактно формулируете вопрос, так не понятно что вам посоветовать
источник

AT

Anastasia Tretyakova in Natural Language Processing
у меня есть блок файлов о счетах об оплате
и из каждого нужно вытащить именно нужные блоки ( это и поставщик, и сумма, и дата, и тд)
источник

GF

Grigory Frantsuzov in Natural Language Processing
Anastasia Tretyakova
у меня есть блок файлов о счетах об оплате
и из каждого нужно вытащить именно нужные блоки ( это и поставщик, и сумма, и дата, и тд)
даты, имена и названия организаций (с ними сложнее всего) можно будет вытащить с помощью той или иной библиотеки NER, суммы наверное можно просто регулярками. очень зависит от того как записан  названия организаций, много ли их разных и используются ли сокращения
источник

AT

Anastasia Tretyakova in Natural Language Processing
а если я знаю примерное расположение на странице, то проще накладывать фильтр или ограничивать область распознавания?
источник

GF

Grigory Frantsuzov in Natural Language Processing
Anastasia Tretyakova
а если я знаю примерное расположение на странице, то проще накладывать фильтр или ограничивать область распознавания?
если вы можете отфильтровать заведомо лишнее - то лучше так и сделать, а распознавать только то что представляет ценность -  сэкономите время
источник

RS

Roman Samarev in Natural Language Processing
Anastasia Tretyakova
если мне именно не имена надо распозновать, а  распозонвать символы/слова, и выделять их в отдельные блоки данных
то это тоже NER?
Токенизация. По заданным правилам
источник

AO

Alex Orgish in Natural Language Processing
Если счета одинакового формата, то простой substring по индексу может работать. Или поиск пл префиксу/регеспу: "Плательщик: *"
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alex Orgish
Если счета одинакового формата, то простой substring по индексу может работать. Или поиск пл префиксу/регеспу: "Плательщик: *"
++
источник

GF

Grigory Frantsuzov in Natural Language Processing
проблемы начинаются если там зоопарк форматов и сокращений
источник

GF

Grigory Frantsuzov in Natural Language Processing
особенно в названиях фирм
источник

AT

Anastasia Tretyakova in Natural Language Processing
а случай, если данные меняют динамически, например была одна строчка, а потом список товаров
NER?
источник

RS

Roman Samarev in Natural Language Processing
Anastasia Tretyakova
а случай, если данные меняют динамически, например была одна строчка, а потом список товаров
NER?
сегментация
источник