Size: a a a

Natural Language Processing

2021 September 22

AK

Anton Kolonin in Natural Language Processing
Вот в этом примере как вы отличите реальный пао "ммк" и магазинчик ип "магнитка" за углом?
источник

М

Марк in Natural Language Processing
В тексте встречается много подобных примеров с однозначным определением вроде профессии менеджер по продажам.
Есть желание уменьшить длину входной последовательности, за счет лучшей токенизации, так как тексты длинные.
источник

A

Andrey in Natural Language Processing
ну никак же))
источник

AK

Anton Kolonin in Natural Language Processing
"менеджер продаж" то же самое тогда - словари фразологизмов нужны тогда
источник

A

Alexander in Natural Language Processing
Спасибо!
источник

AF

Alexander Fedorenko in Natural Language Processing
есть вариант - использовать MUSE от google и не использовать сокращений типа ИП и ПАО расшифровывать их
https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3
источник

AF

Alexander Fedorenko in Natural Language Processing
также стоит обратить внимание на sematic search от sbert
https://www.sbert.net/examples/applications/semantic-search/README.html

Думаю, для наименований надо выбрать симметричный поиск
https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models

тут вообще вариантов и возможностей много, в т.ч.  и по встроенной кластеризации разными методами
https://www.sbert.net/examples/applications/clustering/README.html

UPD использование разных предобученных моделей дает разные результаты. ИМХО стоит проверить, с какой лучше будут результаты
источник

A

Andrey in Natural Language Processing
КМК: Красноярская Мебельная Компания или Кузнецкий Металлургический Комбинат?

Они мимикрируют))

Ну короче задача с нормальным качеством нерешаема, без каких-то доп. вводных, типа контекста, словарей, ИНН, и в таком духе
источник

AF

Alexander Fedorenko in Natural Language Processing
ну и выдайте оба варианта на такой запрос
источник

AF

Alexander Fedorenko in Natural Language Processing
точность и полнота)
источник

VS

Vyacheslav Sherkunov in Natural Language Processing
Тут думаю нужно смотреть контекст и ограничиваться предложением, абзацем или документом, поскольку в нормальном тексте, перед сокращением идёт полное наименование. Можно строить граф связи, и смотреть, что с чем употребляется или вычислять дистанцию между понятиями и по ней принимать решение.
источник

VM

Victor Maslov in Natural Language Processing
$ ./hunpos-tagger --help
-bash: ./hunpos-tagger: Bad CPU type in executable
$ file hunpos-tagger
hunpos-tagger: Mach-O executable i386
источник

VM

Victor Maslov in Natural Language Processing
товарищи, подозреваю, что это сломалось от апдейта на Big Sur
а бинарник я наверное отсюда качал https://code.google.com/archive/p/hunpos/downloads
как исправлять?
источник

VM

Victor Maslov in Natural Language Processing
ток щас заметил, что он 2007 года _Оо
источник

VM

Victor Maslov in Natural Language Processing
Could NOT find OCaml.
ясно, надо чот качать, чтоб скомпилилось
источник

DS

Dmitry Spodarets in Natural Language Processing
📢 Мы в эфире. Присоединяйтесь - https://youtu.be/O1XTIG6u59w
YouTube
Webinar "From research to product with Hydrosphere"
Пятый технический вебинар из серии "The A-Z of Data", который посвящен превращению ML исследования в продукт с использованием Hydrosphere.

https://dataphoenix.info/webinar-the-a-z-of-data-from-research-to-product-with-hydrosphere/

Исследования и экспериментирование обычно являются интересной частью проекта. Исследование данных, изучение предметных областей, выбор и тюнинг моделей, поиск и разработка лучших решений.

На выходе в продакшен самое интересное заканчивается. Зачастую это утомительная и проблемная часть проекта. И тут на помощь приходит Hydrosphere. Платформа, которая берет на себя всю монотонную работу по деплою, поддержке и менеджменту вашых моделей машинного обучения в продакшене.

Присоединяйтесь к нам и узнайте, что вам нужно, чтобы превратить ваше исследование в продукт, и как Hydrosphere может сделать это для вас.

Спикер
Андрей Латыш - Technical Product Owner in ML/DS at Provectus; Founder & Coordinator at Odyssey - Odessa Data Science Community; Machine Learning/Data Science Engineer and…
источник

VM

Victor Maslov in Natural Language Processing
скомпилял новый hunpos, но сдается мне, что-то в нем не так ( https://dpaste.org/z5ac/slim
источник

VM

Victor Maslov in Natural Language Processing
м.б. нужно сделать новую модель, а где взять такой файл для обучения?
источник

AM

Alex Mak in Natural Language Processing
Спасибо, посмотрю. Ну и у меня там в изначальной задаче еще адреса были к каждому наименованию компании.
источник
2021 September 23

🐙

🐙 in Natural Language Processing
Привет всем! Вы когда именованные сущности размечаете, если они в кавычках, вы кавычки включаете в спан или нет? Почему?
источник