Телеграмм чат группы scrapy

Добрый вечер. Если не затруднит, ткните носом в пример, где скачиваются файлы. вообще понять не могу , что к чему.
https://realpython.com/web-scraping-with-scrapy-and-mongodb/
вот аналогичный пример , построения пайплайна. а как-то можно запускать не через командную строку

Realpython

Web Scraping with Scrapy and MongoDB – Real Python

This tutorial covers how to write a Python web crawler using Scrapy to scrape and parse data and then store the data in MongoDB.

S

Добрый вечер. Если не затруднит, ткните носом в пример, где скачиваются файлы. вообще понять не могу , что к чему.
https://realpython.com/web-scraping-with-scrapy-and-mongodb/
вот аналогичный пример , построения пайплайна. а как-то можно запускать не через командную строку

Realpython

Web Scraping with Scrapy and MongoDB – Real Python

This tutorial covers how to write a Python web crawler using Scrapy to scrape and parse data and then store the data in MongoDB.

К

Добрый вечер. Если не затруднит, ткните носом в пример, где скачиваются файлы. вообще понять не могу , что к чему.
https://realpython.com/web-scraping-with-scrapy-and-mongodb/
вот аналогичный пример , построения пайплайна. а как-то можно запускать не через командную строку

Realpython

Web Scraping with Scrapy and MongoDB – Real Python

This tutorial covers how to write a Python web crawler using Scrapy to scrape and parse data and then store the data in MongoDB.

https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline
Задаешь ссылки на файлы в file_urls айтема, подключаешь нужный пайплайн и оно само скачает

источник

22:39пожаловаться #8

BB

Bral Bral in Scrapy

Кирилл

https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline
Задаешь ссылки на файлы в file_urls айтема, подключаешь нужный пайплайн и оно само скачает

благодарю.

источник

22:43пожаловаться #9

2021 February 10

A

Andrii in Scrapy

SoHard 🎄

Очень сложно, только пол милиона респонсов :)

источник

00:16пожаловаться #10

DO

Daniil Okhlopkov in Scrapy

Подскажите, пожалуйста, можно ли как-то по html понять, нужно ли ее рендерить браузером или нет?
У меня есть список урлов, я хочу пройтись и сохранить GET'ом все html, но отдельно узнать про каждый, нужно ли дорендеривать сохраненную html.

источник

11:58пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

Если никакого джс нет ни инлайн, ни ссылками, то не надо

источник

11:58пожаловаться #12

AR

Andrey Rahmatullin in Scrapy

Но такого хтмл в жизни не бывает

источник

11:59пожаловаться #13

DO

Daniil Okhlopkov in Scrapy

Спасибо. Да, я этого понимаю. То есть лучше рендерить вообще все-все-все, чем пытаться "экономить" и делить все html на requires_rendering и нет. Верно?

источник

12:00пожаловаться #14

AR

Andrey Rahmatullin in Scrapy

Нет, лучше ничего не рендерить

источник

12:01пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

Но вообще от задачи зависит

источник

12:01пожаловаться #16

DO

Daniil Okhlopkov in Scrapy

Задача классифицировать сайты. Например: есть гитхаб, там есть внешняя ссылка, нужно понять: это коммерческий проект или просто бесплатная библиотека.

Как планируется делать:
1) Скачать все html страницы всех собранных ссылок
2) Из них достать весь текст / метатеги
3) По ним составить список keywords, которые помогут в нашей классификации (например, наличие слова pricing)
4) Некоторые сайты требуют рендеринга, чтобы выдать хоть какой-нибудь текст, но их должно быть не так много, так как, чтобы лендос индексировался в гугле, создатели должны в html добавить весь необходимый текст для индексации

источник

12:04пожаловаться #17

AR

Andrey Rahmatullin in Scrapy

Аа, ну тут сложно, да

источник

12:10пожаловаться #18

AR

Andrey Rahmatullin in Scrapy

Возможно, для этой задачи можно и не рендерить, кроме вот последних случаев

источник

12:11пожаловаться #19

AR

Andrey Rahmatullin in Scrapy

Ещё кстати нужно будет отличать нормальный ответ от, например, редиректа антибота

источник

12:12пожаловаться #20