Size: a a a

Natural Language Processing

2020 November 18

В

Виталий in Natural Language Processing
Vitaly Gridasov
Всем привет! Есть тексты с новостных, статейных сайтов. Нужно определить к каким категориям относится текст. Категорий около 200, но для начала планируется ограничиться до 5-10 категорий. Язык французский.
Вопрос: насколько затратна реализация задачи по времени и по деньгам?
Делал аналогичное для русских текстов. Надо данные смотреть. По времени 1-2 недели.
источник

БД

Борис Добров... in Natural Language Processing
Vitaly Gridasov
Всем привет! Есть тексты с новостных, статейных сайтов. Нужно определить к каким категориям относится текст. Категорий около 200, но для начала планируется ограничиться до 5-10 категорий. Язык французский.
Вопрос: насколько затратна реализация задачи по времени и по деньгам?
Для справки. Пять или 200 категорий - две большие разницы.
Когда 5 категорий, примеры набрать легко.
А когда 80+, то даже теоретически возникают пересечения смысла классов в общем домене, что сильно затрудняет разметку. Резко растёт рассогласование между экспертами.
И будет много классов с малым количеством документов.
источник

VG

Vitaly Gridasov in Natural Language Processing
Борис Добров
Для справки. Пять или 200 категорий - две большие разницы.
Когда 5 категорий, примеры набрать легко.
А когда 80+, то даже теоретически возникают пересечения смысла классов в общем домене, что сильно затрудняет разметку. Резко растёт рассогласование между экспертами.
И будет много классов с малым количеством документов.
Даже если категории специфические? Например, виды спорта. Так же статья может иметь несколько категорий, а не одну. Я понимаю, что различить спортивную гимнастику от художественной гимнастики будет сложно, но в целом будет достаточно уровня, что это про гимнастику и про спорт в целом
источник

БД

Борис Добров... in Natural Language Processing
Есть приколы между футболом, криминалом и войной, например.
Атаки, удары, защита,  нападения, жертвы и т.п.
В коротких текстах это может быть забавно.
Но это не самое страшное.

Страшнее когда в очереди за пивом ударили по голове спортсмена бутылкой.
Это про спорт?
источник

VG

Vitaly Gridasov in Natural Language Processing
Борис Добров
Есть приколы между футболом, криминалом и войной, например.
Атаки, удары, защита,  нападения, жертвы и т.п.
В коротких текстах это может быть забавно.
Но это не самое страшное.

Страшнее когда в очереди за пивом ударили по голове спортсмена бутылкой.
Это про спорт?
Озадачили) Наверное про спорт, но тут получается, что нужно еще делить на позитивные и негативные новости
источник

IS

Ivan Sheynin in Natural Language Processing
Если известный спортсмен получил по голове, то это и спорт и светская хроника. А если неизвестный, то это рубрика криминал и ничего больше )
источник

БД

Борис Добров... in Natural Language Processing
Говоря научно, есть главные темы, вспомогательные и упоминаемые, и ещё многозначные.
С первыми нет проблем.
Дальше степень согласия между экспертами начинает резко падать.
Надо задавать критерии, лучшими критериями являются критерии качества к результатам, предъявляемым конечному пользователю
источник

БД

Борис Добров... in Natural Language Processing
Ivan Sheynin
Если известный спортсмен получил по голове, то это и спорт и светская хроника. А если неизвестный, то это рубрика криминал и ничего больше )
Как Вы понимаете, это один из самых простых примеров, всем понятный.
Если речь идет о налогах, таможне, законодательстве, культуре и тп, все ещё веселее.
источник

БД

Борис Добров... in Natural Language Processing
А есть ещё интересные NE, например, футбольная  команда КПРФ...

А когда Ростов выиграл у Краснодара?
Если без кавычек и регистра?
источник

БД

Борис Добров... in Natural Language Processing
Это я все к тому, что "две недели".
Для 5 рубрик - да.
Для 200 с хорошим качеством гораздо дольше и сложнее, в том числе организационной.
источник

VG

Vitaly Gridasov in Natural Language Processing
Борис Добров
А есть ещё интересные NE, например, футбольная  команда КПРФ...

А когда Ростов выиграл у Краснодара?
Если без кавычек и регистра?
А если сузить контекст? Новостные сайты часто указывают категории, поэтому в дополнении к тексту можно использовать информацию о категории. Это упростит решение?
источник

БД

Борис Добров... in Natural Language Processing
Кстати, Ростов  vs Краснодар это футбол, а Химки vs Казань это баскетбол.
источник

БД

Борис Добров... in Natural Language Processing
Я просто хотел сказать, что на самом деле классификация потока для реальной бизнес задачи это прежде всего бизнес процесс.
И решать надо самосогласовано, рассматривая конкретные бизнес задачи.
С учётом целевой аудитории.
источник

БД

Борис Добров... in Natural Language Processing
Примеры из жизни:
1. Пресловутый Ростов и Краснодар. Пока пользователи были из центрального офиса большой корпорации, их регионы в таком контексте не волновали.
Затем подключили региональные офисы, им стало важно любое упоминание региона. То есть изменились в один момент правила классификации.

2. Рубрика "для женщин", туда входят новости про детей, но ни в коем случае негатив- то есть дополнительно не  тематические критерии.

И ведь это надо осознать...
Причём желательно заранее для оценки затрат.
источник

AO

Alex Orgish in Natural Language Processing
Интересный проект, может кому пригодится:

https://pair-code.github.io/lit/
источник

НК

Николай Карпенко... in Natural Language Processing
Vitaly Gridasov
Всем привет! Есть тексты с новостных, статейных сайтов. Нужно определить к каким категориям относится текст. Категорий около 200, но для начала планируется ограничиться до 5-10 категорий. Язык французский.
Вопрос: насколько затратна реализация задачи по времени и по деньгам?
Когда много узких категорий лучше использовать иерархию классов. Сначала определяем по общей теме - спорт. Затем делаем модель определения в спорте разных видов спорта. Как мне кажется делать модель на узкие темы будет гемор в любом случае и замучаешься данные размещать и корректировать.

Тем не менее у меня есть решение на пару тысяч классов, среди которых 400+ только научные направления)
источник
2020 November 19

Ivan Σ in Natural Language Processing
Контест от сибура, заданий пока нет
http://sc2020.ai-community.com
источник

TM

Toemik Mnemonic in Natural Language Processing
вопрос по SpaCy: в чем отличие между .has_vector и .is_oov ?  точнее  скорее так: как так выходит что .has_vector == True  при .is_oov == False ?
источник

TM

Toemik Mnemonic in Natural Language Processing
и следом еще: правильно я понимаю что в последнем релизе модели ru2 NER метки в токенах отсутствуют и требуется обучать?
источник

SP

Sebastian Pereira in Natural Language Processing
Toemik Mnemonic
и следом еще: правильно я понимаю что в последнем релизе модели ru2 NER метки в токенах отсутствуют и требуется обучать?
Per и Loc точно были, когда я смотрел.
источник