Size: a a a

Natural Language Processing

2021 July 05

VP

Vladimir P in Natural Language Processing
вообще мне желательно просто какие-то результаты получить, возможно даже вовсе не получить никакого результата)
источник

d

dePuff in Natural Language Processing
А заказать датасет где ошибки исправлены?

К тому времени и стажировка закончится
источник

ДС

Дмитрий Симаков... in Natural Language Processing
У тебя все равно единственная информация - это нетипичные слова для текущего контекста. Берёшь норм распознанные тексты, рандомно кораптишь слова. И пытаешься предсказать правильно. Просто как исправление опечаток.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Только ещё надо учесть, что некоторые слова могут сливаться в одно или одно разбиваться на несколько.
источник

d

dePuff in Natural Language Processing
Ну то есть учиться нужно на нормальных текстах из домена, а не вот этом вот всём
источник

VP

Vladimir P in Natural Language Processing
возможно что-то будет. Я попросил воспроизвести чаты говорилкой и пропустить через распознавалку, не знаю только, поможет ли это
источник

ДС

Дмитрий Симаков... in Natural Language Processing
А чья распознавалка речи?
источник

ДС

Дмитрий Симаков... in Natural Language Processing
У меня есть датасет из 100к сообщений, которые сначала озвучили, потом наложили шум, потом распознали.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Но это синтетика.
источник

VP

Vladimir P in Natural Language Processing
Я не помню)
источник

ДС

Дмитрий Симаков... in Natural Language Processing
То есть доступны пары текстов. Исходный и «распознанный».
источник

ДС

Дмитрий Симаков... in Natural Language Processing
источник

K

Kopish in Natural Language Processing
Всем доброго вечера, я пока совсем нубяра, поэтому могу прям глупые вопросы задавать. Есть задача из большого списка названий контрагентов (записаных как кому казалось правильно) вытащить ИПшников.
Первое что приходить в голову это тащить gram «Name» из токенизатора, проблема в том что токинизатор выдает список. Вопрос такой, гарантирует ли токенизатор MorphTokenizer сортировку по скору?
источник

K

Kopish in Natural Language Processing
еще буду рад всяким комментарием по подходу к задаче
источник

MO

Mikhail Orlov in Natural Language Processing
А в списке инн, огрн нет?
источник

K

Kopish in Natural Language Processing
инн только у юр лиц есть, огрн нет
источник

MO

Mikhail Orlov in Natural Language Processing
Если инн указан только для юрлиц, но все без инн по этой логике- ип. Нет?
источник

K

Kopish in Natural Language Processing
не, там не у всех юр лиц он есть
источник

K

Kopish in Natural Language Processing
этот справочник их хрен пойми чего сделан, попросили покрутить перед загрузкой в mdm
источник

MO

Mikhail Orlov in Natural Language Processing
1. ИП - не юридическое лицо, а статус физического лица.
2. Узнайте по инн ИП это или ООО(или другая форма) через егрюл или сервис типа дадаты
источник