Size: a a a

2020 June 01

МС

Михаил Синегубов... in Scrapy
короче, один хрен, тут скрапи и рябом не валялся с этой проблемой. Имеется в виду, надо сначала найти, как в принципе, хоть реквестами, пройти защиту. А потом уже биться "почему в скарпи нет контента"

скоро уже матами буду разговаривать на такие вопросы без ссылки на сайт
источник

A

Alex in Scrapy
Я ссылку давал выше если что)
источник

A

Alex in Scrapy
Спасибо за ответ
источник

МС

Михаил Синегубов... in Scrapy
ага, а если поискать по чатику, то можно найти разговор конкретно про этот сайт, что там икаспула и как ее можно попробовать пройти :)
источник

🎱

🎱 in Scrapy
Михаил Синегубов
т.е. фрейм с частью адреса "src="/_Incapsula_Resource?CWUDNSAI=22&xinfo=4..." вот совсем не настораживает?
а где такое посмотреть?
источник

AR

Andrey Rahmatullin in Scrapy
в коде?
источник

🎱

🎱 in Scrapy
да
источник

AR

Andrey Rahmatullin in Scrapy
в коде, говорю
источник

🎱

🎱 in Scrapy
Михаил Синегубов
т.е. фрейм с частью адреса "src="/_Incapsula_Resource?CWUDNSAI=22&xinfo=4..." вот совсем не настораживает?
не могу найти
источник

🎱

🎱 in Scrapy
как вы ищете такие штуки быстро?
источник

МС

Михаил Синегубов... in Scrapy
🎱
как вы ищете такие штуки быстро?
1. чистишь нахрен все куки и куришь вкладку "Network" инструментов разработчика баузера
2. ставишь https://www.postman.com/, куришь что от показывает
3. тянешь курлом старинцу
4. scrapy shell + print(response.text)
источник

МС

Михаил Синегубов... in Scrapy
выбирай удобный вариант
источник

🎱

🎱 in Scrapy
Михаил Синегубов
1. чистишь нахрен все куки и куришь вкладку "Network" инструментов разработчика баузера
2. ставишь https://www.postman.com/, куришь что от показывает
3. тянешь курлом старинцу
4. scrapy shell + print(response.text)
вау, очень годно, спасибо.
Сохранил
источник

МС

Михаил Синегубов... in Scrapy
🎱
вау, очень годно, спасибо.
Сохранил
а вот за это (то что сам не додумался) можно и пааа жопе получить. Кроме постмана - все "на поверхности лежит"
источник

МС

Михаил Синегубов... in Scrapy
думать то тоже надо
источник

🎱

🎱 in Scrapy
Михаил Синегубов
а вот за это (то что сам не додумался) можно и пааа жопе получить. Кроме постмана - все "на поверхности лежит"
согласен, но это для меня не очень то и очевидно было, поэтому спросил
источник

МС

Михаил Синегубов... in Scrapy
кстати, из всех вариантов:
1. постман - самый удобный, ибо можно все быреноко поменять
2. scrapy shell  - самый правдивый, относительно скарпи
источник

🎱

🎱 in Scrapy
Михаил Синегубов
кстати, из всех вариантов:
1. постман - самый удобный, ибо можно все быреноко поменять
2. scrapy shell  - самый правдивый, относительно скарпи
есть https://www.baldor.com/catalog#category=242 сайт с разными категориями.
он тянет данные с помощью апи.  
https://www.baldor.com/api/products?include=results&language=en-US&include=filters&include=category&pageSize=10&category=242

Матчей продуктов может быть ~10k.
в запросе апи есть query string с параметром  pageSize.
Насколько корректно запрашивать сразу большое кол-во матчей? (в коде я запрашиваю сразу 10к матчей)
f'{self.api_url}products?include=results&pageSize={10**4}&category={int(category_page)}&brand=2
источник

МС

Михаил Синегубов... in Scrapy
🎱
есть https://www.baldor.com/catalog#category=242 сайт с разными категориями.
он тянет данные с помощью апи.  
https://www.baldor.com/api/products?include=results&language=en-US&include=filters&include=category&pageSize=10&category=242

Матчей продуктов может быть ~10k.
в запросе апи есть query string с параметром  pageSize.
Насколько корректно запрашивать сразу большое кол-во матчей? (в коде я запрашиваю сразу 10к матчей)
f'{self.api_url}products?include=results&pageSize={10**4}&category={int(category_page)}&brand=2
"все что не убивает, делает нас сильнее"
Если сайт даёт (и не банит), и ты можешь прожевать - хоть мульён запрашивай
источник

МС

Михаил Синегубов... in Scrapy
Просто в большинстве случаев - увеличивать кол-во данных в результате смысла нет
источник