Size: a a a

Natural Language Processing

2021 January 29

AL

Alexey Lemeshevski in Natural Language Processing
тут задача чуть другая все же ) не "парсинг конкурентов" (обойти 10 сайтов и что-то сравнить), а "собрать полезные данные с 10 000 сайтов" :)
источник

A

Anton in Natural Language Processing
Alexey Lemeshevski
Ребята, взываю к силе коллективного разума :)
1) я давно занимаюсь парсингами ...и это переросло в умение собирать структурированные данные с неограниченного количества сайтов. Я научился писать алгоритмы для извлечения ценовых данных (и распознавать ценные данные из названий товаров) и построил небольшую инфраструктуру для обхода десятков и сотен тысяч сайтов. Хочу превратить это в небольшой бизнес. Как вы думаете, где, помимо сбора цен, это может быть нужно? ...новости, вакансии... вот какие ещё датасеты можно собирать, в которых есть потребность? :) Может нужно кому? :)

2) если кому-то интересно - давайте делать вместе. Мне нужно разработчик в пару :)
Да, сайтик новостной надо распарсить.
источник

AE

Anton Eryomin in Natural Language Processing
что значит полезные данные ?
источник

AE

Anton Eryomin in Natural Language Processing
полезные кому?
источник

AE

Anton Eryomin in Natural Language Processing
не подумайте, я не наезжаю, просто такие вопросы вслух
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Alexey Lemeshevski
тут задача чуть другая все же ) не "парсинг конкурентов" (обойти 10 сайтов и что-то сравнить), а "собрать полезные данные с 10 000 сайтов" :)
Я бы хотел увидеть аналог API в одно окно, чтобы я одним запросом с гарантией получал контент из любого источника)

Самособой с обработкой явы, скриптов, гарантией ожидания загрузки страницы до конца и передачей файлов, ожиданиями...
источник

A

Anton in Natural Language Processing
Помню ребята спрашивали про парсинг с сайтов по тендерам.
источник

A

Anton in Natural Language Processing
Поэтому спрос есть - вопрос цены наверное, сроков и качества.
источник

AL

Alexey Lemeshevski in Natural Language Processing
на примере новостей - это что-то типа:
- найти 5000 новостных сайтов
- автоматически выделить текст новости, заголовок, автора, дату, ссылки (если есть), категорию новости в пределах сайта
- собрать чистый датасет, с выделением каждого поля в отдельную колонку; без мусора из html-тэгов и т.п. )
источник

Р

Ромаша in Natural Language Processing
Alexey Lemeshevski
на примере новостей - это что-то типа:
- найти 5000 новостных сайтов
- автоматически выделить текст новости, заголовок, автора, дату, ссылки (если есть), категорию новости в пределах сайта
- собрать чистый датасет, с выделением каждого поля в отдельную колонку; без мусора из html-тэгов и т.п. )
сделай услугу по сбору датасетов)
источник

AE

Anton Eryomin in Natural Language Processing
толока? 🙂
источник

AL

Alexey Lemeshevski in Natural Language Processing
Толокой дороже будет )
источник

АВ

Антон Владимиров... in Natural Language Processing
Alexey Lemeshevski
на примере новостей - это что-то типа:
- найти 5000 новостных сайтов
- автоматически выделить текст новости, заголовок, автора, дату, ссылки (если есть), категорию новости в пределах сайта
- собрать чистый датасет, с выделением каждого поля в отдельную колонку; без мусора из html-тэгов и т.п. )
что то типа библиотеки newspaper3k?
источник

AL

Alexey Lemeshevski in Natural Language Processing
Ромаша
сделай услугу по сбору датасетов)
да, это и хочу )) пытаюсь понять, что, кроме цен магазинов, новостей и вакансий нужно рынку ))
источник

Eg

Elena gisly in Natural Language Processing
Alexey Lemeshevski
на примере новостей - это что-то типа:
- найти 5000 новостных сайтов
- автоматически выделить текст новости, заголовок, автора, дату, ссылки (если есть), категорию новости в пределах сайта
- собрать чистый датасет, с выделением каждого поля в отдельную колонку; без мусора из html-тэгов и т.п. )
а вы можете оценить стоимость своих работ или это лучше в личку? просто интересно
источник

Eg

Elena gisly in Natural Language Processing
(сравнить со своими трудозатратами, скажем так)
источник

AL

Alexey Lemeshevski in Natural Language Processing
Elena gisly
а вы можете оценить стоимость своих работ или это лучше в личку? просто интересно
это лучше в личку ) так правильнее, наверное )
источник

AE

Anton Eryomin in Natural Language Processing
ну например есть вот хорошая задача
источник

AE

Anton Eryomin in Natural Language Processing
есть несколько job classified порталов - хх, работару, суперджоб итд На них размещаются люди, задача такая, выдавать каждый день людей, которые сегодня разместили резюме
источник

AE

Anton Eryomin in Natural Language Processing
т.е. те кто прямо сейчас в активном поиске работы
источник