Size: a a a

2020 June 01

🎱

🎱 in Scrapy
Михаил Синегубов
"все что не убивает, делает нас сильнее"
Если сайт даёт (и не банит), и ты можешь прожевать - хоть мульён запрашивай
сайт дает тянуть столько)
но кажется, это не самая лучшая практика, решил узнать мнение экспертов
источник

🎱

🎱 in Scrapy
Михаил Синегубов
Просто в большинстве случаев - увеличивать кол-во данных в результате смысла нет
а как? сайт при скроллинге инкрементирует параметр pageSize на 1. Матчей при таком варианте, на каждой странице по 10
источник

МС

Михаил Синегубов... in Scrapy
Ну, это от задачи и сайта зависит, бывает что в 99% случаев хватает запросить первые 2-3 тыс результатов, и только в 1% надо обязательно тащить все 10 тыс.
Просто в большинстве случаев, чем больше данных, тем больше их сайт отдает. И "дешевле" по времени запрашивать не весь, гарантированно охватывающий нужные данные диапазон, а, все же, чуть меньшие куски
источник

🎱

🎱 in Scrapy
Михаил Синегубов
Ну, это от задачи и сайта зависит, бывает что в 99% случаев хватает запросить первые 2-3 тыс результатов, и только в 1% надо обязательно тащить все 10 тыс.
Просто в большинстве случаев, чем больше данных, тем больше их сайт отдает. И "дешевле" по времени запрашивать не весь, гарантированно охватывающий нужные данные диапазон, а, все же, чуть меньшие куски
спасибо, это очень интересный ответ
источник

🎱

🎱 in Scrapy
Михаил Синегубов
Ну, это от задачи и сайта зависит, бывает что в 99% случаев хватает запросить первые 2-3 тыс результатов, и только в 1% надо обязательно тащить все 10 тыс.
Просто в большинстве случаев, чем больше данных, тем больше их сайт отдает. И "дешевле" по времени запрашивать не весь, гарантированно охватывающий нужные данные диапазон, а, все же, чуть меньшие куски
т.е: получается, если на сайте выше, можно запросить сразу 25к продуктов не переходя по категориям, то лучше будет если, пройтись по категориям и их сабкатегориям и маленькими порциями запрашивать данные?
т.к, как ты выше написал, это дешевле по времени и рисков меньше?
источник

🎱

🎱 in Scrapy
а могут например забанить в таком случае? (если запросить весь диапазон продуктов)
источник

МС

Михаил Синегубов... in Scrapy
🎱
а могут например забанить в таком случае? (если запросить весь диапазон продуктов)
могут, если озадачатся и посмотрят, почему у них некоторые запросы долго выполняются.
Я тебе больше скажу, некоторые баны и каптчу начинают включать через несколько дней :). Попробуй studfiles спарсить, точнее работы скачать. Если вечером в пятницу начнешь, в понедельник днем капчта будет, админы на работу выйдут 😂.

у меня при первом проходе они через неделю проснулись, и помсотрели, почему у них трафик такой ибинячий :))
источник

🎱

🎱 in Scrapy
Михаил Синегубов
могут, если озадачатся и посмотрят, почему у них некоторые запросы долго выполняются.
Я тебе больше скажу, некоторые баны и каптчу начинают включать через несколько дней :). Попробуй studfiles спарсить, точнее работы скачать. Если вечером в пятницу начнешь, в понедельник днем капчта будет, админы на работу выйдут 😂.

у меня при первом проходе они через неделю проснулись, и помсотрели, почему у них трафик такой ибинячий :))
лол))
источник

🎱

🎱 in Scrapy
Михаил Синегубов
могут, если озадачатся и посмотрят, почему у них некоторые запросы долго выполняются.
Я тебе больше скажу, некоторые баны и каптчу начинают включать через несколько дней :). Попробуй studfiles спарсить, точнее работы скачать. Если вечером в пятницу начнешь, в понедельник днем капчта будет, админы на работу выйдут 😂.

у меня при первом проходе они через неделю проснулись, и помсотрели, почему у них трафик такой ибинячий :))
и как решил проблему ? подключил капчу солвер и пошел дальше?
интересно послушать
источник

МС

Михаил Синегубов... in Scrapy
🎱
и как решил проблему ? подключил капчу солвер и пошел дальше?
интересно послушать
забил...
точнее, клиент сказал - "нафуй", ибо каптча на каждое скачивание, а счет шел на сотни тысачь, а то и на миллионы файлов
источник

🎱

🎱 in Scrapy
хмм понятно, но с админами весело вышло))
источник

🎅B

🎅 Austin Bluethy in Scrapy
Здравствуйте. Мне нужно сделать так, чтобы при вводе -a tag=tag выводил ту страницу с этими тэгами. Все работает, но как сделать проверку, если такого тэга нет? Проверить страницу на отсутствие не получится, т. к. Эта страница содается и пишет, что такого тэга нет.

Возможно мне стоит проверить наличие автора и если его нет, то писать, что такого тэга нет. Но у метода
start_requests
нельзя передавать аргумент
response

Надеюсь, что хоть что-то вы поняли
источник

МС

Михаил Синегубов... in Scrapy
если на странице есть "No quotes found!" то тега нет на сайте
источник

МС

Михаил Синегубов... in Scrapy
тупо поиском то тексту страницы
источник

🎅B

🎅 Austin Bluethy in Scrapy
Но как мне проверить, что на странице написано "No quotes found!" ?
источник

🎅B

🎅 Austin Bluethy in Scrapy
Я же не могу передать response и искать
источник

МС

Михаил Синегубов... in Scrapy
🎅 Austin Bluethy
Я же не могу передать response и искать
😳
это как? а response.text уже убрали? я то то опять проспал?
источник

🎅B

🎅 Austin Bluethy in Scrapy
Мне нужно написать

def start_requests(self, response):
   pass
источник

🎅B

🎅 Austin Bluethy in Scrapy
?
источник

МС

Михаил Синегубов... in Scrapy
ты ответ должен проверить, следовательно, самое простое, что просится - методе parse
источник