Телеграмм чат группы scrapy_python страница 1609

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

493 membersпожаловаться на группу

2020 June 01

🎱

Михаил Синегубов

"все что не убивает, делает нас сильнее"
Если сайт даёт (и не банит), и ты можешь прожевать - хоть мульён запрашивай

сайт дает тянуть столько)
но кажется, это не самая лучшая практика, решил узнать мнение экспертов

источник

13:18пожаловаться #1

🎱

Михаил Синегубов

Просто в большинстве случаев - увеличивать кол-во данных в результате смысла нет

а как? сайт при скроллинге инкрементирует параметр pageSize на 1. Матчей при таком варианте, на каждой странице по 10

источник

13:18пожаловаться #2

МС

Михаил Синегубов... in Scrapy

Ну, это от задачи и сайта зависит, бывает что в 99% случаев хватает запросить первые 2-3 тыс результатов, и только в 1% надо обязательно тащить все 10 тыс.
Просто в большинстве случаев, чем больше данных, тем больше их сайт отдает. И "дешевле" по времени запрашивать не весь, гарантированно охватывающий нужные данные диапазон, а, все же, чуть меньшие куски

источник

13:23пожаловаться #3

🎱

Михаил Синегубов

Ну, это от задачи и сайта зависит, бывает что в 99% случаев хватает запросить первые 2-3 тыс результатов, и только в 1% надо обязательно тащить все 10 тыс.
Просто в большинстве случаев, чем больше данных, тем больше их сайт отдает. И "дешевле" по времени запрашивать не весь, гарантированно охватывающий нужные данные диапазон, а, все же, чуть меньшие куски

спасибо, это очень интересный ответ

источник

13:25пожаловаться #4

🎱

Михаил Синегубов

Ну, это от задачи и сайта зависит, бывает что в 99% случаев хватает запросить первые 2-3 тыс результатов, и только в 1% надо обязательно тащить все 10 тыс.
Просто в большинстве случаев, чем больше данных, тем больше их сайт отдает. И "дешевле" по времени запрашивать не весь, гарантированно охватывающий нужные данные диапазон, а, все же, чуть меньшие куски

т.е: получается, если на сайте выше, можно запросить сразу 25к продуктов не переходя по категориям, то лучше будет если, пройтись по категориям и их сабкатегориям и маленькими порциями запрашивать данные?
т.к, как ты выше написал, это дешевле по времени и рисков меньше?

источник

13:29пожаловаться #5

🎱

а могут например забанить в таком случае? (если запросить весь диапазон продуктов)

источник

13:31пожаловаться #6

МС

Михаил Синегубов... in Scrapy

а могут например забанить в таком случае? (если запросить весь диапазон продуктов)

могут, если озадачатся и посмотрят, почему у них некоторые запросы долго выполняются.
Я тебе больше скажу, некоторые баны и каптчу начинают включать через несколько дней :). Попробуй studfiles спарсить, точнее работы скачать. Если вечером в пятницу начнешь, в понедельник днем капчта будет, админы на работу выйдут 😂.

у меня при первом проходе они через неделю проснулись, и помсотрели, почему у них трафик такой ибинячий :))

источник

13:34пожаловаться #7

🎱

Михаил Синегубов

могут, если озадачатся и посмотрят, почему у них некоторые запросы долго выполняются.
Я тебе больше скажу, некоторые баны и каптчу начинают включать через несколько дней :). Попробуй studfiles спарсить, точнее работы скачать. Если вечером в пятницу начнешь, в понедельник днем капчта будет, админы на работу выйдут 😂.

у меня при первом проходе они через неделю проснулись, и помсотрели, почему у них трафик такой ибинячий :))

лол))

источник

13:34пожаловаться #8

🎱

Михаил Синегубов

могут, если озадачатся и посмотрят, почему у них некоторые запросы долго выполняются.
Я тебе больше скажу, некоторые баны и каптчу начинают включать через несколько дней :). Попробуй studfiles спарсить, точнее работы скачать. Если вечером в пятницу начнешь, в понедельник днем капчта будет, админы на работу выйдут 😂.

у меня при первом проходе они через неделю проснулись, и помсотрели, почему у них трафик такой ибинячий :))

и как решил проблему ? подключил капчу солвер и пошел дальше?
интересно послушать

источник

13:37пожаловаться #9

МС

Михаил Синегубов... in Scrapy

и как решил проблему ? подключил капчу солвер и пошел дальше?
интересно послушать

забил...
точнее, клиент сказал - "нафуй", ибо каптча на каждое скачивание, а счет шел на сотни тысачь, а то и на миллионы файлов

источник

13:39пожаловаться #10

🎱

хмм понятно, но с админами весело вышло))

источник

13:42пожаловаться #11

🎅B

🎅 Austin Bluethy in Scrapy

Здравствуйте. Мне нужно сделать так, чтобы при вводе -a tag=tag выводил ту страницу с этими тэгами. Все работает, но как сделать проверку, если такого тэга нет? Проверить страницу на отсутствие не получится, т. к. Эта страница содается и пишет, что такого тэга нет.

Возможно мне стоит проверить наличие автора и если его нет, то писать, что такого тэга нет. Но у метода

start_requests

нельзя передавать аргумент

response

Надеюсь, что хоть что-то вы поняли

источник

13:52пожаловаться #12

МС

Михаил Синегубов... in Scrapy

если на странице есть "No quotes found!" то тега нет на сайте

источник

13:53пожаловаться #13

МС

Михаил Синегубов... in Scrapy

тупо поиском то тексту страницы

источник

13:53пожаловаться #14

🎅B

🎅 Austin Bluethy in Scrapy

Но как мне проверить, что на странице написано "No quotes found!" ?

источник

13:54пожаловаться #15

🎅B

🎅 Austin Bluethy in Scrapy

Я же не могу передать response и искать

источник

13:54пожаловаться #16

МС

Михаил Синегубов... in Scrapy

🎅 Austin Bluethy

Я же не могу передать response и искать

😳
это как? а response.text уже убрали? я то то опять проспал?

источник

13:55пожаловаться #17

🎅B

🎅 Austin Bluethy in Scrapy

Мне нужно написать

def start_requests(self, response):
    pass

источник

13:55пожаловаться #18

🎅B

🎅 Austin Bluethy in Scrapy

?

источник

13:55пожаловаться #19

МС

Михаил Синегубов... in Scrapy

ты ответ должен проверить, следовательно, самое простое, что просится - методе parse

источник

13:56пожаловаться #20