Телеграмм чат группы natural_language_processing страница 960

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2247 membersпожаловаться на группу

2020 December 07

ДС

Дмитрий Симаков... in Natural Language Processing

Жаль что не "покричали" в Сберовском DS чате. Мы бы юридических документов подкинули бы. ELMO на 1.2 гига обучали, но в принципе хоть 5 Гб собрать реально.

А есть в опенсорсе?

источник

01:09пожаловаться #1

MK

Max Kuznetsov in Natural Language Processing

Дмитрий Симаков

А есть в опенсорсе?

Пока нет. Но можно обсудить.

источник

01:19пожаловаться #2

MK

Max Kuznetsov in Natural Language Processing

Sergei Markoff

Ещё можно докинуть.

👍🏿 отпишусь утром.

источник

01:20пожаловаться #3

AT

Anastasia Tretyakova in Natural Language Processing

Всем привет, подскажите пожалуйста)
У меня вопрос, касаемый грузинского или как минимум английского языка
можно ли как-то обучать модель, чтобы она понимала, что Иван, Петя и тд -> имя и сама могла находить имя в каком-то документе?
или реальна пока реализовать, когда мы просто накладываем фильтр(ограничиваем область) и распознает этот кусочек?

источник

11:14пожаловаться #4

ВГ

Вадим Гилемзянов... in Natural Language Processing

Anastasia Tretyakova

Всем привет, подскажите пожалуйста)
У меня вопрос, касаемый грузинского или как минимум английского языка
можно ли как-то обучать модель, чтобы она понимала, что Иван, Петя и тд -> имя и сама могла находить имя в каком-то документе?
или реальна пока реализовать, когда мы просто накладываем фильтр(ограничиваем область) и распознает этот кусочек?

slot filling? - вообще в spacy/ fastText есть NER

источник

11:19пожаловаться #5

GF

Grigory Frantsuzov in Natural Language Processing

Anastasia Tretyakova

Всем привет, подскажите пожалуйста)
У меня вопрос, касаемый грузинского или как минимум английского языка
можно ли как-то обучать модель, чтобы она понимала, что Иван, Петя и тд -> имя и сама могла находить имя в каком-то документе?
или реальна пока реализовать, когда мы просто накладываем фильтр(ограничиваем область) и распознает этот кусочек?

то что вы ищите называется NER (Named Entity Recognition)

Для английского языка существуешь довольно много отлично работающих решений

источник

11:19пожаловаться #6

GF

Grigory Frantsuzov in Natural Language Processing

с грузинским языком сложнее, но я думаю что тоже есть (по крайней мере в рамках мультиязычных библиотек)

источник

11:20пожаловаться #7

AT

Anastasia Tretyakova in Natural Language Processing

если мне именно не имена надо распозновать, а распозонвать символы/слова, и выделять их в отдельные блоки данных
то это тоже NER?

источник

11:25пожаловаться #8

GF

Grigory Frantsuzov in Natural Language Processing

Anastasia Tretyakova

если мне именно не имена надо распозновать, а распозонвать символы/слова, и выделять их в отдельные блоки данных
то это тоже NER?

Named Entity Recognition это в основном про имена, топонимы, адреса и так далее, можно обычно как-то дообучить или добавить на свой типе Entity.

Очень абстрактно формулируете вопрос, так не понятно что вам посоветовать

источник

11:27пожаловаться #9

AT

Anastasia Tretyakova in Natural Language Processing

у меня есть блок файлов о счетах об оплате
и из каждого нужно вытащить именно нужные блоки ( это и поставщик, и сумма, и дата, и тд)

источник

11:29пожаловаться #10

GF

Grigory Frantsuzov in Natural Language Processing

Anastasia Tretyakova

у меня есть блок файлов о счетах об оплате
и из каждого нужно вытащить именно нужные блоки ( это и поставщик, и сумма, и дата, и тд)

даты, имена и названия организаций (с ними сложнее всего) можно будет вытащить с помощью той или иной библиотеки NER, суммы наверное можно просто регулярками. очень зависит от того как записан названия организаций, много ли их разных и используются ли сокращения

источник

11:31пожаловаться #11

AT

Anastasia Tretyakova in Natural Language Processing

а если я знаю примерное расположение на странице, то проще накладывать фильтр или ограничивать область распознавания?

источник

11:32пожаловаться #12

GF

Grigory Frantsuzov in Natural Language Processing

Anastasia Tretyakova

а если я знаю примерное расположение на странице, то проще накладывать фильтр или ограничивать область распознавания?

если вы можете отфильтровать заведомо лишнее - то лучше так и сделать, а распознавать только то что представляет ценность - сэкономите время

источник

11:34пожаловаться #13

RS

Roman Samarev in Natural Language Processing

Anastasia Tretyakova

если мне именно не имена надо распозновать, а распозонвать символы/слова, и выделять их в отдельные блоки данных
то это тоже NER?

Токенизация. По заданным правилам

источник

11:34пожаловаться #14

AO

Alex Orgish in Natural Language Processing

Если счета одинакового формата, то простой substring по индексу может работать. Или поиск пл префиксу/регеспу: "Плательщик: *"

источник

11:34пожаловаться #15

GF

Grigory Frantsuzov in Natural Language Processing

Если счета одинакового формата, то простой substring по индексу может работать. Или поиск пл префиксу/регеспу: "Плательщик: *"

++

источник

11:34пожаловаться #16

GF

Grigory Frantsuzov in Natural Language Processing

проблемы начинаются если там зоопарк форматов и сокращений

источник

11:35пожаловаться #17

GF

Grigory Frantsuzov in Natural Language Processing

особенно в названиях фирм

источник

11:35пожаловаться #18

AT

Anastasia Tretyakova in Natural Language Processing

а случай, если данные меняют динамически, например была одна строчка, а потом список товаров
NER?

источник

12:00пожаловаться #19

RS

Roman Samarev in Natural Language Processing

Anastasia Tretyakova

а случай, если данные меняют динамически, например была одна строчка, а потом список товаров
NER?

сегментация

источник

12:07пожаловаться #20