Size: a a a

Natural Language Processing

2021 January 14

DD

David Dale in Natural Language Processing
А второй путь чем-то проще
1. Парсишь базу препаратов
2. По возможности чистишь её
3. Складываешь базу препаратов в огрооомную регулярку, а лучше ahocorasick. Предварительно можно их просклонять pymorphy во все падежи.
4. Готово! Ты можешь искать все подстроки в твоих статьях, которые есть в базе препаратов.
источник

DD

David Dale in Natural Language Processing
Второй путь проще (не нужно ничего размечать), но если база неполная, то и полнота у такого классификатора будет небольшой. А вот первый, машиннообученный способ, может дать очень высокую полноту (если пороги пониже опустить) - но, конечно, за счет понижения точности.
источник

DD

David Dale in Natural Language Processing
Евгений Зубов
Спасибо! Да, токенизированную строку имел ввиду, конечно. Есть опыт работы c bag words и вот думаю, как не изучая ничего нового решить задачу по быстрому. Приведенными вами ссылки изучаю, но если идти по верхам, то алгоритм примерно такой:

1. Беру много мед статей
2. Парсим базу препаратов
3. Статьи чищу, нормализую, токенизирую
4. Делю данные на x (ориг данные) и y (с 1 для искомых слов, а остальное 0)
5. Беру преобученную BERT трансофрмер
6. Доучиваю на своих данных

Верно? Получается, задача классификации и f1 мера в качестве целевой метрики?
F1 не всегда уместная метрика, т.к. в зависимости от бизнес-задачи полнота может быть важнее точности либо наоборот.
Я бы зафиксировал приемлемый для прикладной задачи уровень точности, и пытался бы для этого уровня максимизировать полноту. Или наоборот.
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Понял, огромное спасибо!
источник

PL

Pavel Lebedev in Natural Language Processing
добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?
источник

DD

David Dale in Natural Language Processing
Pavel Lebedev
добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?
Вместо umap можно попробовать сделать какое-нибудь классическое линейное разложение (типа truncatedSVD или какой-нибудь вариант topic modelling).
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?
Дендрограмму построить?
источник

SancheZz Мов in Natural Language Processing
Если охота красиво представить можно поверх юмап использовать hdbscan
источник

PL

Pavel Lebedev in Natural Language Processing
компоненты присутствуют в «случайных» комбинациях. компонентов и объектов по несколько тысяч
источник

SancheZz Мов in Natural Language Processing
источник

PL

Pavel Lebedev in Natural Language Processing
так что не пойму как тут денрограмма.. а про dbscan думал, да
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?
А если считать что объект это документ компонент?
источник

SancheZz Мов in Natural Language Processing
И обучить w2v
источник

SancheZz Мов in Natural Language Processing
И уже его кластеризовать или отобразить в юмап
источник

SancheZz Мов in Natural Language Processing
Хотя красиво было бы сделать графы
источник

SancheZz Мов in Natural Language Processing
Как в social network analysis
источник

PL

Pavel Lebedev in Natural Language Processing
> А если считать что объект это документ компонент?
не уловил. поясните? это текстовые данные в действительности, коллекции и элементы/фрагменты.
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
> А если считать что объект это документ компонент?
не уловил. поясните? это текстовые данные в действительности, коллекции и элементы/фрагменты.
А что ранее не сказали?)
источник

SancheZz Мов in Natural Language Processing
Pavel Lebedev
добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?
Тут не указано что компоненты это тексты)
источник

PL

Pavel Lebedev in Natural Language Processing
для анализа NLP методами там мало текста..
источник