Size: a a a

Natural Language Processing

2021 January 29

AE

Anton Eryomin in Natural Language Processing
задача для многих порталов нужна и важная, но очень не тривиальная
источник

AE

Anton Eryomin in Natural Language Processing
помимо парсинга всех этих сайтов, нужно уметь объединять разных людей в одного, т.е. быть уверенным что это один и тот же человек
источник

AE

Anton Eryomin in Natural Language Processing
ну и этих людей продавать всяким рекрутерам
источник

AL

Alexey Lemeshevski in Natural Language Processing
Антон Владимиров
что то типа библиотеки newspaper3k?
прикольная ) типа да, но нет задачи написать свою библиотеку. Хочется понять, какие есть задачи, требующие обхода тысяч и сотен тысяч сайтов )
источник

AL

Alexey Lemeshevski in Natural Language Processing
Anton Eryomin
задача для многих порталов нужна и важная, но очень не тривиальная
все же, тут все-равно чуть другое )) ...кстати, пол дня общения в ФБ и тут показали - что, не смотря на наличие большого количества предложений на рынке парсинга, есть спрос на парсинг отдельных крупных сайтов ) или набора из 5-10 )

просто эти задачи решаются ведь уже )

неужели никому не нужно обходить тысячи и более сайтов и что-то автоматом из них извлекать? )) нишевой поисковик там сделать... не знаю )
источник

AE

Anton Eryomin in Natural Language Processing
зачем? )))
источник

AE

Anton Eryomin in Natural Language Processing
ну правда
источник

AE

Anton Eryomin in Natural Language Processing
цены можно наверняка извлекать из яндекс маркета
источник

AE

Anton Eryomin in Natural Language Processing
новости ... вообще сомнительная ценность
источник

AL

Alexey Lemeshevski in Natural Language Processing
вот и я ищу - зачем :)
источник

AS

Alex Surname in Natural Language Processing
Alexey Lemeshevski
все же, тут все-равно чуть другое )) ...кстати, пол дня общения в ФБ и тут показали - что, не смотря на наличие большого количества предложений на рынке парсинга, есть спрос на парсинг отдельных крупных сайтов ) или набора из 5-10 )

просто эти задачи решаются ведь уже )

неужели никому не нужно обходить тысячи и более сайтов и что-то автоматом из них извлекать? )) нишевой поисковик там сделать... не знаю )
крупные сайт обычно в облаке. а там на хостинге защита от краулинга - показывает капчу. я не знаю как это обойти
источник

AL

Alexey Lemeshevski in Natural Language Processing
Alex Surname
крупные сайт обычно в облаке. а там на хостинге защита от краулинга - показывает капчу. я не знаю как это обойти
это немного не по теме этой группы, но ... есть сервисы для разгадывания капч, есть прокси разные )
источник

AS

Alex Surname in Natural Language Processing
Alexey Lemeshevski
это немного не по теме этой группы, но ... есть сервисы для разгадывания капч, есть прокси разные )
я пробовал ТОР, там сразу капча. поскольку на хостинге амазона(как пример) куча сайтов, и много умников с ботами за проксей, то каждый айпи адрес прокси имеет высокую частоту и как следствие блокируется
источник

AS

Alex Surname in Natural Language Processing
сервисы для разгадывания капч - сомнительно, если там не индусы в виде бекенда
источник

AE

Anton Eryomin in Natural Language Processing
мне кажется тут важнее даже сам концептуальный вопрос, а для кого
источник

AL

Alexey Lemeshevski in Natural Language Processing
я исхожу из "для чего" - как только ясно "для чего" - можно придумать "для кого" ) ...у маркетологов есть модное слово jtbd в разработке продуктов )) типа, на первом месте все же задача ) ...а уж потом портрет )
источник

FF

Futorio Franklin in Natural Language Processing
Alexey Lemeshevski
я исхожу из "для чего" - как только ясно "для чего" - можно придумать "для кого" ) ...у маркетологов есть модное слово jtbd в разработке продуктов )) типа, на первом месте все же задача ) ...а уж потом портрет )
Круто будет, если для примера будет доступен хотя бы какой-нибудь датасет
источник

FF

Futorio Franklin in Natural Language Processing
Чтобы понимать о чём речь
источник

FF

Futorio Franklin in Natural Language Processing
Можно его будет залить на https://github.com/natasha/corus
источник

AL

Alexey Lemeshevski in Natural Language Processing
Anton Eryomin
зачем? )))
только что вот ещё один вариант задачи обнаружился - "собрать параллельный корпус из переводов" :) там, правда, если источников не много - это тоже про обычный парсинг задача )
источник