Size: a a a

2021 February 08

AS

Andrey Sapronov in Scrapy
источник

МС

Михаил Синегубов... in Scrapy
Кирилл
Golang 😏 или C, вот выход
таки да, я бы еще добавил "большинство компилируемых"...
источник

К

Кирилл in Scrapy
Andrey Sapronov
Уже смотрел в сторону go, но пока остановился на aiohttp))
На го есть даже приятные решения, чего не скажешь о С
источник

AP

Alex Python in Scrapy
Кто нить на payeer входил post get запросами ?
источник
2021 February 09

Z

Zack!? in Scrapy
Кирилл
Включай дэбагер, ставь брейкпоинты и смотри откуда приходит новое значение
Сам пайп из file_path возвращает корректные значения. Надо в кишках дебажить, а там эти колбеки...)))
источник

BB

Bral Bral in Scrapy
Добрый вечер. Если не затруднит, ткните носом в пример, где скачиваются файлы. вообще понять не могу , что к чему.
https://realpython.com/web-scraping-with-scrapy-and-mongodb/
вот аналогичный пример , построения пайплайна.  а как-то можно запускать не через командную строку
источник

S

SoHard 🎄 in Scrapy
Bral Bral
Добрый вечер. Если не затруднит, ткните носом в пример, где скачиваются файлы. вообще понять не могу , что к чему.
https://realpython.com/web-scraping-with-scrapy-and-mongodb/
вот аналогичный пример , построения пайплайна.  а как-то можно запускать не через командную строку
источник

К

Кирилл in Scrapy
Bral Bral
Добрый вечер. Если не затруднит, ткните носом в пример, где скачиваются файлы. вообще понять не могу , что к чему.
https://realpython.com/web-scraping-with-scrapy-and-mongodb/
вот аналогичный пример , построения пайплайна.  а как-то можно запускать не через командную строку
https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline
Задаешь ссылки на файлы в file_urls айтема, подключаешь нужный пайплайн и оно само скачает
источник

BB

Bral Bral in Scrapy
Кирилл
https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline
Задаешь ссылки на файлы в file_urls айтема, подключаешь нужный пайплайн и оно само скачает
благодарю.
источник
2021 February 10

A

Andrii in Scrapy
Очень сложно, только пол милиона респонсов :)
источник

DO

Daniil Okhlopkov in Scrapy
Подскажите, пожалуйста, можно ли как-то по html понять, нужно ли ее рендерить браузером или нет?
У меня есть список урлов, я хочу пройтись и сохранить GET'ом все html, но отдельно узнать про каждый, нужно ли дорендеривать сохраненную html.
источник

AR

Andrey Rahmatullin in Scrapy
Если никакого джс нет ни инлайн, ни ссылками, то не надо
источник

AR

Andrey Rahmatullin in Scrapy
Но такого хтмл в жизни не бывает
источник

DO

Daniil Okhlopkov in Scrapy
Спасибо. Да, я этого понимаю. То есть лучше рендерить вообще все-все-все, чем пытаться "экономить" и делить все html на requires_rendering и нет. Верно?
источник

AR

Andrey Rahmatullin in Scrapy
Нет, лучше ничего не рендерить
источник

AR

Andrey Rahmatullin in Scrapy
Но вообще от задачи зависит
источник

DO

Daniil Okhlopkov in Scrapy
Задача классифицировать сайты. Например: есть гитхаб, там есть внешняя ссылка, нужно понять: это коммерческий проект или просто бесплатная библиотека.

Как планируется делать:
1) Скачать все html страницы всех собранных ссылок
2) Из них достать весь текст / метатеги
3) По ним составить список keywords, которые помогут в нашей классификации (например, наличие слова pricing)
4) Некоторые сайты требуют рендеринга, чтобы выдать хоть какой-нибудь текст, но их должно быть не так много, так как, чтобы лендос индексировался в гугле, создатели должны в html добавить весь необходимый текст для индексации
источник

AR

Andrey Rahmatullin in Scrapy
Аа, ну тут сложно, да
источник

AR

Andrey Rahmatullin in Scrapy
Возможно, для этой задачи можно и не рендерить, кроме вот последних случаев
источник

AR

Andrey Rahmatullin in Scrapy
Ещё кстати нужно будет отличать нормальный ответ от, например, редиректа антибота
источник