Size: a a a

Natural Language Processing

2020 August 18

RZ

Roman Zaitsev in Natural Language Processing
пробуй эту версию
источник

RZ

Roman Zaitsev in Natural Language Processing
со старым интерфейсом
источник

RZ

Roman Zaitsev in Natural Language Processing
API may change, for realworld tasks consider using low level libraries from Natasha project. Models optimized for news articles, quality on other domain may be lower. To use old NamesExtractor, AddressExtactor downgrade pip install natasha<1 yargy<0.13
источник

RZ

Roman Zaitsev in Natural Language Processing
вот из документашки Наташки
источник

A

Anthony in Natural Language Processing
Да я тут тоже набрел, видимо не пкрвый сталкиваюсь:

https://github.com/natasha/yargy/issues/64

Спасибо за помощь! Буду пробовать)
источник

RZ

Roman Zaitsev in Natural Language Processing
Напиши, помогло или нет
источник

A

Anthony in Natural Language Processing
Хорошо
источник

KS

Konstantin Smith in Natural Language Processing
Vitalii Smirnov
Здравствуйте! Добрый день! Есть система, в которой данные представляются пользователю в виде формы ввода на основании дерева связанных показателей (разная степень обобщения данных). Сейчас дерево показателей строится вручную, но мне необходимо автоматизировать построение дерева показателей (дальнейшую детализацию показателей). Дерево показателей также используется для сбора данных из открытых источников. На, Ваш взгляд, насколько это реализуемо с использованием нейронных сетей и в какие деньги обойдётся разработка, включая НИР? Не знаю насколько понятно обозначил задачу. Отвечу на все дополнительные вопросы. Готов также пообщаться лично, либо по телефону
Лет 5 назад у одного заказчика была задача построения онтологии по описаниями (номенклатурам) товара. Они мониторили госзакупки и искали товары медицинской направленности. Моя была задача (1) выделить из документации товарные позиции и (2) разобрать эти товарные позиции на атомарные элементы, которые потом служили для построения онтологии. Элементы были разных типов: ключевые слова, наименования, количественные и качественные атрибуты и пр. Для этого я в Pullenti специально сделал сущности GoodReferent и GoodAttributeReferent для разбора описаний. Можно попробовать использовать их.
источник

A

Anthony in Natural Language Processing
Roman Zaitsev
Напиши, помогло или нет
Помогло. Установил natasha==0.10.0 и yargy==0.12.0. Все работает отлично
источник

RZ

Roman Zaitsev in Natural Language Processing
Anthony
Помогло. Установил natasha==0.10.0 и yargy==0.12.0. Все работает отлично
Понял, спасибо
источник

A

Anthony in Natural Language Processing
Тебе спасибо )
источник

FE

Fedor Ezhov in Natural Language Processing
Здравствуйте. Впервые работаю с анализом текста, хотел бы спросить совета. Есть следующая задача, нужно по названию профессии вывести список требуемых для нее "скиллов", например: профессия - "Аналитик данных " -> набор скиллов - "Высшее образование по направлению инженер/математик/физик/геофизик/data scientist/data analyst (высокий средний балл). — Опыт работы на Matlab, Python". Общую структуру в данных выделить сложно, т.к. все данные парсятся с анекет hh, которые составляют hr'ы. Составляют они их по разному. Хотел бы узнать каким подходом лучше решать данную задачу, обычный ML или же углубляться в сетки? Сейчас копаю информацию в сторону seq-to-seq моделей.
источник

DP

Defragmented Panda in Natural Language Processing
Fedor Ezhov
Здравствуйте. Впервые работаю с анализом текста, хотел бы спросить совета. Есть следующая задача, нужно по названию профессии вывести список требуемых для нее "скиллов", например: профессия - "Аналитик данных " -> набор скиллов - "Высшее образование по направлению инженер/математик/физик/геофизик/data scientist/data analyst (высокий средний балл). — Опыт работы на Matlab, Python". Общую структуру в данных выделить сложно, т.к. все данные парсятся с анекет hh, которые составляют hr'ы. Составляют они их по разному. Хотел бы узнать каким подходом лучше решать данную задачу, обычный ML или же углубляться в сетки? Сейчас копаю информацию в сторону seq-to-seq моделей.
профессий менее 1000

это быстрее сделать вручную. если хочется забав - бери gpt и дообучай на анкетах hh
источник

DP

Defragmented Panda in Natural Language Processing
но все равно там правильных ответов будет эдак 10%. и ты все равно сам будешь просматривать эти 10к вариантов
источник

AT

Andrey Tatarinov in Natural Language Processing
Defragmented Panda
профессий менее 1000

это быстрее сделать вручную. если хочется забав - бери gpt и дообучай на анкетах hh
Только обязательно gpt-3
источник

t

toriningen in Natural Language Processing
да, и обязательно с нуля
источник

AM

Alex Mak in Natural Language Processing
Andrey Tatarinov
Только обязательно gpt-3
А разве 3-ю версию уже можно где-то «взять»?
источник

KL

Kir L in Natural Language Processing
Написать
источник

FF

Futorio Franklin in Natural Language Processing
Andrey Tatarinov
Только обязательно gpt-3
gpt-4
источник

AZ

Alexander Zdorovets in Natural Language Processing
Alex Mak
А разве 3-ю версию уже можно где-то «взять»?
можно подать заявку на доступ к API, но там огроменная очередь
источник