Телеграмм чат группы natural_language_processing страница 812

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1956 membersпожаловаться на группу

2020 August 29

$

$○| in Natural Language Processing

Python-readability, trafilatura, на java был кажется boilerpipe. Работают не идеально, но получше наивной обработки HTML: вырезают рекламные, картиночные и ссылочные блоки, зачастую успешно отделяют блоки с комментариями от блоков со статьёй.

python модуль newspaper есть еще для выделения главного текста страницы

источник

16:14пожаловаться #1

$

$○| in Natural Language Processing

GitHub - codelucas/newspaper: News, full-text, and article metadata extraction in Python 3. Advanced docs:
https://github.com/codelucas/newspaper

codelucas/newspaper

News, full-text, and article metadata extraction in Python 3. Advanced docs: - codelucas/newspaper

источник

16:16пожаловаться #2

SK

Sasha Korovii in Natural Language Processing

GitHub - codelucas/newspaper: News, full-text, and article metadata extraction in Python 3. Advanced docs:
https://github.com/codelucas/newspaper

codelucas/newspaper

News, full-text, and article metadata extraction in Python 3. Advanced docs: - codelucas/newspaper

Он работает по типу шаблонов, не все сайты разпарсить может, нужно отдельно проверять.

источник

16:25пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

python модуль newspaper есть еще для выделения главного текста страницы

Коллеги из scrapinghub смотрели, мой python-readability лучше по качеству, чем newspaper3k

источник

16:28пожаловаться #4

S

Shine in Natural Language Processing

а есть ли что-то специализированное как раз под коммерческие коммерческие страницы ? задача извлекать характеристики/описания с карточек товаров и листинги ?

источник

16:31пожаловаться #5

YB

Yuri Baburov in Natural Language Processing

а есть ли что-то специализированное как раз под коммерческие коммерческие страницы ? задача извлекать характеристики/описания с карточек товаров и листинги ?

Обращайтесь к scrapinghub

источник

16:32пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

извиняюсь, перепутал имя компании. правильно — scrapinghub:
"мы опубликовали сравнение библиотек для извлечения текста статьи из веб-страниц: https://github.com/scrapinghub/article-extraction-benchmark - выложили датасет (всего 181 статьи), скрипты для оценки и подробное описание как что делали в PDF. Из open-source библиотек выиграл https://github.com/buriy/python-readability от @buriy 🎉
Из коммерческих скромно мы (старались чтобы всё было честно), сравнивали только с diffbot."

scrapinghub/article-extraction-benchmark

Article extraction benchmark: dataset and evaluation scripts - scrapinghub/article-extraction-benchmark

источник

16:35пожаловаться #7

S

Shine in Natural Language Processing

спасибо!

источник

16:37пожаловаться #8

$

$○| in Natural Language Processing

извиняюсь, перепутал имя компании. правильно — scrapinghub:
"мы опубликовали сравнение библиотек для извлечения текста статьи из веб-страниц: https://github.com/scrapinghub/article-extraction-benchmark - выложили датасет (всего 181 статьи), скрипты для оценки и подробное описание как что делали в PDF. Из open-source библиотек выиграл https://github.com/buriy/python-readability от @buriy 🎉
Из коммерческих скромно мы (старались чтобы всё было честно), сравнивали только с diffbot."

scrapinghub/article-extraction-benchmark

Article extraction benchmark: dataset and evaluation scripts - scrapinghub/article-extraction-benchmark

о, python readability ваш
мое уважение

источник

18:02пожаловаться #9

$

$○| in Natural Language Processing

пользовался им одно время

источник

18:03пожаловаться #10

2020 August 30

AM

Alex Mak in Natural Language Processing

Народ, нужен совет по задаче классификации на несколько классов: на вход приходит короткий запрос (1-2 предложения). Ему нужно присвоить один/несколько классов. Всего желаемых классов ~20, есть датасет без таргетов и скорее всего с дисбалансом классов. Для классификации хочу tfidf и svd, но не понимаю, как разобрать исходный датасет. Кластеризация и тематическое моделирование?

О, я такую же задачу сейчас решаю. Но у меня размеченный (правда дисбалансный массив). Расскажешь потом, как твой метод сработал? Я лично пробую lstm сетку сейчас.

источник

01:48пожаловаться #11

$

$○| in Natural Language Processing

А какие сейчас условия у GPT-3? Вот я видел сайт https://philosopherai.com

я так понимаю они получили доступ к gpt-3. Он платный или пока бесплатный тестовый? Есть ли там лимиты?

Philosopher AI

Philosopher AI is a GPT-3 based pocket philosopher.

источник

12:03пожаловаться #12

d

dimakarp1996 in Natural Language Processing

Кто-нибудь пробовал векторизовать документы для кластеризации, и если да, какой способ лучше всего работал?

источник

12:45пожаловаться #13

AG

Abhishek Gupta in Natural Language Processing

https://thesweetdata.com/an-overview-to-recommendation-systemhttps://thesweetdata.com/an-overview-to-recommendation-system

Error 404 - The Data Science Platform

источник

12:54пожаловаться #14

AG

Abhishek Gupta in Natural Language Processing

https://thesweetdata.com/an-overview-to-recommendation-system

An Overview to Recommendation System

We are seeing incredible growth in multiple providers using the recommendation system. Be it Youtube, Twitter, Amazon, Netflix, ads, or an e-commerce platform, in our online path these mechanisms are necessary. They seek to anticipate the preferences of consumers and recommend items that they can like in alignment with their preferences. Machine learning methods are important in the Framework of Recommendations.

источник

12:54пожаловаться #15

E

Elena in Natural Language Processing

Кто-нибудь пробовал векторизовать документы для кластеризации, и если да, какой способ лучше всего работал?

Зависит для чего кластеры, сколько их

источник

13:01пожаловаться #16

RI

Roman Inflianskas in Natural Language Processing

Привет!
Существует ли библиотека для Python, поставляемая с претренированными моделями (хотя бы для английского, в идеале ещё финский и датский) для классификации текстов?
Хочется что-то типа того, что у Google (см. скриншот), только в виде offline библиотеки.
// Я находил кучу решений для классификации текста, но все они требовали обучения на датасете.

источник

13:46пожаловаться #17

DD

David Dale in Natural Language Processing

А на какие классы ты хочешь классифицировать?
Обычно обучение нужно именно потому, что классы всем требуются разные :)

источник

13:51пожаловаться #18

RI

Roman Inflianskas in Natural Language Processing

А на какие классы ты хочешь классифицировать?
Обычно обучение нужно именно потому, что классы всем требуются разные :)

Я начал писать бота для изучения языков. Сейчас у меня уже работает добавление произвольных слов из словаря. Хочется сделать так, чтобы пользователь мог задать класс (к примеру, Computing), и ему сыпались предложения про компьютеры, программирование и всё такое. Предложения планирую брать из корпуса, предварительно снабдив их классами.
Если есть более элегантное решение хотелось бы его услышать.
// Если что, то я делаю бесплатного бота с открытыми исходниками.

источник

13:56пожаловаться #19

DD

David Dale in Natural Language Processing

Roman Inflianskas

Я начал писать бота для изучения языков. Сейчас у меня уже работает добавление произвольных слов из словаря. Хочется сделать так, чтобы пользователь мог задать класс (к примеру, Computing), и ему сыпались предложения про компьютеры, программирование и всё такое. Предложения планирую брать из корпуса, предварительно снабдив их классами.
Если есть более элегантное решение хотелось бы его услышать.
// Если что, то я делаю бесплатного бота с открытыми исходниками.

Если у тебя заранее списка классов нет, то можно применить к твоему корпусу какой-нибудь алгоритм кластеризации (их много, возьми хоть sklearn, и они работают почти из коробки, надо пару параметров потюнить, типа числа кластеров), и сделать кластеры - классами.

источник

13:58пожаловаться #20