Телеграмм чат группы natural_language_processing страница 1007

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2362 membersпожаловаться на группу

2021 January 14

DD

David Dale in Natural Language Processing

А второй путь чем-то проще
1. Парсишь базу препаратов
2. По возможности чистишь её
3. Складываешь базу препаратов в огрооомную регулярку, а лучше ahocorasick. Предварительно можно их просклонять pymorphy во все падежи.
4. Готово! Ты можешь искать все подстроки в твоих статьях, которые есть в базе препаратов.

источник

21:59пожаловаться #1

DD

David Dale in Natural Language Processing

Второй путь проще (не нужно ничего размечать), но если база неполная, то и полнота у такого классификатора будет небольшой. А вот первый, машиннообученный способ, может дать очень высокую полноту (если пороги пониже опустить) - но, конечно, за счет понижения точности.

источник

22:00пожаловаться #2

DD

David Dale in Natural Language Processing

Евгений Зубов

Спасибо! Да, токенизированную строку имел ввиду, конечно. Есть опыт работы c bag words и вот думаю, как не изучая ничего нового решить задачу по быстрому. Приведенными вами ссылки изучаю, но если идти по верхам, то алгоритм примерно такой:

1. Беру много мед статей
2. Парсим базу препаратов
3. Статьи чищу, нормализую, токенизирую
4. Делю данные на x (ориг данные) и y (с 1 для искомых слов, а остальное 0)
5. Беру преобученную BERT трансофрмер
6. Доучиваю на своих данных

Верно? Получается, задача классификации и f1 мера в качестве целевой метрики?

F1 не всегда уместная метрика, т.к. в зависимости от бизнес-задачи полнота может быть важнее точности либо наоборот.
Я бы зафиксировал приемлемый для прикладной задачи уровень точности, и пытался бы для этого уровня максимизировать полноту. Или наоборот.

источник

22:01пожаловаться #3

ЕЗ

Евгений Зубов... in Natural Language Processing

Понял, огромное спасибо!

источник

22:01пожаловаться #4

PL

Pavel Lebedev in Natural Language Processing

добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?

источник

23:25пожаловаться #5

DD

David Dale in Natural Language Processing

добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?

Вместо umap можно попробовать сделать какое-нибудь классическое линейное разложение (типа truncatedSVD или какой-нибудь вариант topic modelling).

источник

23:35пожаловаться #6

SМ

SancheZz Мов in Natural Language Processing

добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?

Дендрограмму построить?

источник

23:35пожаловаться #7

SМ

SancheZz Мов in Natural Language Processing

Если охота красиво представить можно поверх юмап использовать hdbscan

источник

23:37пожаловаться #8

PL

Pavel Lebedev in Natural Language Processing

компоненты присутствуют в «случайных» комбинациях. компонентов и объектов по несколько тысяч

источник

23:37пожаловаться #9

SМ

SancheZz Мов in Natural Language Processing

https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html

источник

23:38пожаловаться #10

PL

Pavel Lebedev in Natural Language Processing

так что не пойму как тут денрограмма.. а про dbscan думал, да

источник

23:38пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?

А если считать что объект это документ компонент?

источник

23:39пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

И обучить w2v

источник

23:39пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

И уже его кластеризовать или отобразить в юмап

источник

23:39пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

Хотя красиво было бы сделать графы

источник

23:40пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Как в social network analysis

источник

23:40пожаловаться #16

PL

Pavel Lebedev in Natural Language Processing

> А если считать что объект это документ компонент?
не уловил. поясните? это текстовые данные в действительности, коллекции и элементы/фрагменты.

источник

23:40пожаловаться #17

SМ

SancheZz Мов in Natural Language Processing

> А если считать что объект это документ компонент?
не уловил. поясните? это текстовые данные в действительности, коллекции и элементы/фрагменты.

А что ранее не сказали?)

источник

23:40пожаловаться #18

SМ

SancheZz Мов in Natural Language Processing

добрый вечер! задача: есть список объектов и список компонентов (каждый объект включет в себя несколько из них). мне нужно сделать и отобразить визуально нечто вроде кластеризации: в какие категории по своему составу группируются объекты. я пока думал в сторону сделать из этого разреженную матрицу и скормить чему-нибудь вроде umap, но вероятно это не самая разумная идея. подскажите, в какую сторону смотреть?

Тут не указано что компоненты это тексты)

источник

23:41пожаловаться #19

PL

Pavel Lebedev in Natural Language Processing

для анализа NLP методами там мало текста..

источник

23:41пожаловаться #20