Size: a a a

Natural Language Processing

2020 August 21

AW

Alex Wortega in Natural Language Processing
Добрый день, я пишу пет проект анализа новостей, я выкачал лента.ру за два года , выкинул мусор, и прогнал через LDA. Получилась фигня. Как лучше выделить ключевые новости на таком массиве данных?
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alex Wortega
Добрый день, я пишу пет проект анализа новостей, я выкачал лента.ру за два года , выкинул мусор, и прогнал через LDA. Получилась фигня. Как лучше выделить ключевые новости на таком массиве данных?
что такое анализ?
источник

GF

Grigory Frantsuzov in Natural Language Processing
в твоем бизнес кейсе
источник

DP

Defragmented Panda in Natural Language Processing
Alex Wortega
Добрый день, я пишу пет проект анализа новостей, я выкачал лента.ру за два года , выкинул мусор, и прогнал через LDA. Получилась фигня. Как лучше выделить ключевые новости на таком массиве данных?
спарси еще просмотры каждой из новостей например
источник

AE

Arty Erokhin in Natural Language Processing
Alex Wortega
Добрый день, я пишу пет проект анализа новостей, я выкачал лента.ру за два года , выкинул мусор, и прогнал через LDA. Получилась фигня. Как лучше выделить ключевые новости на таком массиве данных?
можно сюда посмотреть

https://github.com/ods-ai-ml4sg/proj_news_viz
источник

FF

Futorio Franklin in Natural Language Processing
Alex Wortega
Добрый день, я пишу пет проект анализа новостей, я выкачал лента.ру за два года , выкинул мусор, и прогнал через LDA. Получилась фигня. Как лучше выделить ключевые новости на таком массиве данных?
Как данные предобрабатывались перед LDA?
источник

AW

Alex Wortega in Natural Language Processing
Grigory Frantsuzov
что такое анализ?
Чтобы выделить тренды по короне/ и тд
источник

AW

Alex Wortega in Natural Language Processing
Futorio Franklin
Как данные предобрабатывались перед LDA?
Bow, чистка, токены
источник

FF

Futorio Franklin in Natural Language Processing
Alex Wortega
Bow, чистка, токены
Стоп-слова удалялись?
источник

AW

Alex Wortega in Natural Language Processing
Futorio Franklin
Стоп-слова удалялись?
Да
источник

FF

Futorio Franklin in Natural Language Processing
Нужно с количеством топиков поэкспериментировать
источник

AW

Alex Wortega in Natural Language Processing
Futorio Franklin
Нужно с количеством топиков поэкспериментировать
Да я уже
источник

AW

Alex Wortega in Natural Language Processing
Я вытащил штук 15 новостей по типу: выборы, wada, Украина,
источник

KL

Kir L in Natural Language Processing
без учителя всегда тяжело :(
источник

A

AlexandrN in Natural Language Processing
Defragmented Panda
делать сеть в которой есть 2 слоя в конце:

предпоследний слой с 100 000 классов, явно больше чем когда-либо будет нужно

последний слой с 1000 классов. при обьединении или разделении класса достаточно перетренировать только последний слой, или даже отдельные нейроны, если границы остальных классов не задеты

предпоследний слой можно тренировать с функцией ошибки на основе ортогональности (независимости, отсутствии корреляции классов) и на основе равнозначимости (простой случай - дропаут, средний - штраф за веса близкие к 1, сложный - считать корреляцию активности каждого из классов с активностью классов последнего слоя)
Спасибо! Возможно, не совсем точно описал проблему или не правильно понял ваше предложение, потому уточню. Датасет для обучения содержит много ситуаций, когда обращения одного смысла (тематики) размечены разными метками классов. Причина в изменения в классах, которые проводились ранее. Например, обращение тематики X сначала классифицировали как класс А, потом приняли решение из А выделить класс В и  обращения тематики X относить к классу В и т.д. Вот и получается, что X может иметь метки А, В, С... Это снижает точность классификации. Вопрос - как получить датасет для обучения или (и) модель, которая максимально точно классифицирует обращения с учетом текущей схемы классификации?
источник

FF

Futorio Franklin in Natural Language Processing
Тем более, если за большой период времени новости, то будет каша из-за большого количества трендов
источник

FF

Futorio Franklin in Natural Language Processing
Можно по временным участкам поделить и для каждого построить модель
источник

AW

Alex Wortega in Natural Language Processing
Futorio Franklin
Тем более, если за большой период времени новости, то будет каша из-за большого количества трендов
Я когда строил dbscan сильно удивился
источник

DP

Defragmented Panda in Natural Language Processing
AlexandrN
Спасибо! Возможно, не совсем точно описал проблему или не правильно понял ваше предложение, потому уточню. Датасет для обучения содержит много ситуаций, когда обращения одного смысла (тематики) размечены разными метками классов. Причина в изменения в классах, которые проводились ранее. Например, обращение тематики X сначала классифицировали как класс А, потом приняли решение из А выделить класс В и  обращения тематики X относить к классу В и т.д. Вот и получается, что X может иметь метки А, В, С... Это снижает точность классификации. Вопрос - как получить датасет для обучения или (и) модель, которая максимально точно классифицирует обращения с учетом текущей схемы классификации?
у нас несколько классов сразу активно может быть?

или этого лучше избегать?
источник

FF

Futorio Franklin in Natural Language Processing
Alex Wortega
Я когда строил dbscan сильно удивился
Чему?
источник