Size: a a a

Natural Language Processing

2020 August 29

$

$○| in Natural Language Processing
Yuri Baburov
Python-readability, trafilatura, на java был кажется boilerpipe. Работают не идеально, но получше наивной обработки HTML: вырезают рекламные, картиночные и ссылочные блоки, зачастую успешно отделяют блоки с комментариями от блоков со статьёй.
python модуль newspaper есть еще для выделения главного текста страницы
источник

$

$○| in Natural Language Processing
GitHub - codelucas/newspaper: News, full-text, and article metadata extraction in Python 3. Advanced docs:
https://github.com/codelucas/newspaper
источник

SK

Sasha Korovii in Natural Language Processing
Он работает по типу шаблонов, не все сайты разпарсить может, нужно отдельно проверять.
источник

YB

Yuri Baburov in Natural Language Processing
$○|
python модуль newspaper есть еще для выделения главного текста страницы
Коллеги из scrapinghub смотрели, мой python-readability лучше по качеству, чем newspaper3k
источник

S

Shine in Natural Language Processing
а есть ли что-то специализированное как раз под коммерческие коммерческие страницы ? задача извлекать характеристики/описания с карточек товаров и листинги ?
источник

YB

Yuri Baburov in Natural Language Processing
Shine
а есть ли что-то специализированное как раз под коммерческие коммерческие страницы ? задача извлекать характеристики/описания с карточек товаров и листинги ?
Обращайтесь к scrapinghub
источник

YB

Yuri Baburov in Natural Language Processing
извиняюсь, перепутал имя компании. правильно — scrapinghub:
"мы опубликовали сравнение библиотек для извлечения текста статьи из веб-страниц: https://github.com/scrapinghub/article-extraction-benchmark - выложили датасет (всего 181 статьи), скрипты для оценки и подробное описание как что делали в PDF. Из open-source библиотек выиграл https://github.com/buriy/python-readability от @buriy 🎉
Из коммерческих скромно мы (старались чтобы всё было честно), сравнивали только с diffbot."
источник

S

Shine in Natural Language Processing
спасибо!
источник

$

$○| in Natural Language Processing
Yuri Baburov
извиняюсь, перепутал имя компании. правильно — scrapinghub:
"мы опубликовали сравнение библиотек для извлечения текста статьи из веб-страниц: https://github.com/scrapinghub/article-extraction-benchmark - выложили датасет (всего 181 статьи), скрипты для оценки и подробное описание как что делали в PDF. Из open-source библиотек выиграл https://github.com/buriy/python-readability от @buriy 🎉
Из коммерческих скромно мы (старались чтобы всё было честно), сравнивали только с diffbot."
о, python readability ваш
мое уважение
источник

$

$○| in Natural Language Processing
пользовался им одно время
источник
2020 August 30

AM

Alex Mak in Natural Language Processing
Sergey Shulga
Народ, нужен совет по задаче классификации на несколько классов: на вход приходит короткий запрос (1-2 предложения). Ему нужно присвоить один/несколько классов. Всего желаемых классов ~20, есть датасет  без таргетов и скорее всего с дисбалансом классов. Для классификации хочу tfidf и svd, но не понимаю, как разобрать исходный датасет. Кластеризация и тематическое моделирование?
О, я такую же задачу сейчас решаю. Но у меня размеченный (правда дисбалансный массив). Расскажешь потом, как твой метод сработал? Я лично пробую lstm сетку сейчас.
источник

$

$○| in Natural Language Processing
А какие сейчас условия у GPT-3?  Вот я видел сайт https://philosopherai.com

я так понимаю они получили доступ к gpt-3. Он платный или пока бесплатный тестовый?  Есть ли там лимиты?
источник

d

dimakarp1996 in Natural Language Processing
Кто-нибудь пробовал векторизовать документы для кластеризации, и если да, какой способ лучше всего работал?
источник

AG

Abhishek Gupta in Natural Language Processing
источник

AG

Abhishek Gupta in Natural Language Processing
источник

E

Elena in Natural Language Processing
dimakarp1996
Кто-нибудь пробовал векторизовать документы для кластеризации, и если да, какой способ лучше всего работал?
Зависит для чего кластеры, сколько их
источник

RI

Roman Inflianskas in Natural Language Processing
Привет!
Существует ли библиотека для Python, поставляемая с претренированными моделями (хотя бы для английского, в идеале ещё финский и датский) для классификации текстов?
Хочется что-то типа того, что у Google (см. скриншот), только в виде offline библиотеки.
// Я находил кучу решений для классификации текста, но все они требовали обучения на датасете.
источник

DD

David Dale in Natural Language Processing
А на какие классы ты хочешь классифицировать?
Обычно обучение нужно именно потому, что классы всем требуются разные :)
источник

RI

Roman Inflianskas in Natural Language Processing
David Dale
А на какие классы ты хочешь классифицировать?
Обычно обучение нужно именно потому, что классы всем требуются разные :)
Я начал писать бота для изучения языков. Сейчас у меня уже работает добавление произвольных слов из словаря. Хочется сделать так, чтобы пользователь мог задать класс (к примеру, Computing), и ему сыпались предложения про компьютеры, программирование и всё такое. Предложения планирую брать из корпуса, предварительно снабдив их классами.
Если есть более элегантное решение хотелось бы его услышать.
// Если что, то я делаю бесплатного бота с открытыми исходниками.
источник

DD

David Dale in Natural Language Processing
Roman Inflianskas
Я начал писать бота для изучения языков. Сейчас у меня уже работает добавление произвольных слов из словаря. Хочется сделать так, чтобы пользователь мог задать класс (к примеру, Computing), и ему сыпались предложения про компьютеры, программирование и всё такое. Предложения планирую брать из корпуса, предварительно снабдив их классами.
Если есть более элегантное решение хотелось бы его услышать.
// Если что, то я делаю бесплатного бота с открытыми исходниками.
Если у тебя заранее списка классов нет, то можно применить к твоему корпусу какой-нибудь алгоритм кластеризации (их много, возьми хоть sklearn, и они работают почти из коробки, надо пару параметров потюнить, типа числа кластеров), и сделать кластеры - классами.
источник