Size: a a a

2020 May 30

AR

Andrey Rahmatullin in Scrapy
Vlad Savva
Здравствуйте.
Паршу avito. Нужно парсить первые N объявлений в каждой из 59 категорий. Но уже при переходе на ~10-ую ссылку происходит редирект на другую страницу.
Уменьшил количество конкурентных запросов до 1, поставил задержку на 10 секунд. Редирект не происходит. Но 10 секунд очень долго, что не подходит для выполнения задачи.
Что делать в этой ситуации?
прокси ротейтить
источник

AR

Andrey Rahmatullin in Scrapy
или что такое "редирект на другую страницу"
источник

VS

Vlad Savva in Scrapy
[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.avito.ru/blocked> from <GET https://www.avito.ru/moskva/>
источник

AR

Andrey Rahmatullin in Scrapy
А, ну бан
источник

VS

Vlad Savva in Scrapy
Только через прокси?
источник

AR

Andrey Rahmatullin in Scrapy
кто ж знает
источник

AR

Andrey Rahmatullin in Scrapy
но вообще это нормально
источник

🎱

🎱 in Scrapy
Есть сайт у которого фронт написан на ангуляре, соответственно, контент динамический.
в Network -> XHR можно выгрузить контент с помощью апи в json.

вопрос в следующем, какой бест практис для работы с динамическим контентом ? использовать селениум или же лучше будет если с апи тянуть данные?
источник

AR

Andrey Rahmatullin in Scrapy
источник

i

ildar in Scrapy
Походу это самая часто линкуемая ссылка в этом чатике)
источник

🎱

🎱 in Scrapy
для подводки.
When this happens, the recommended approach is to find the data source and extract the data from it.

в моем случае, все достается через XHR, селениум не нужен в этом случае, так?)
источник

AR

Andrey Rahmatullin in Scrapy
да
источник

🎱

🎱 in Scrapy
спасибо)
источник

🎱

🎱 in Scrapy
а можно запрос который в XHR достать как-то без копипаста?
вытащить с помощью скрапи как нибудь ?
источник

AR

Andrey Rahmatullin in Scrapy
от сайта зависит
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
от сайта зависит
как это узнать, не подскажешь?🙏
источник

AR

Andrey Rahmatullin in Scrapy
читать код страницы и используемого джса, может там где-то прописано как она получается
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
читать код страницы и используемого джса, может там где-то прописано как она получается
спасибо, попробую
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
читать код страницы и используемого джса, может там где-то прописано как она получается
а если я из XHR вытащу и пропишу урл в спайдере, то так делать тоже ок ?
источник

AR

Andrey Rahmatullin in Scrapy
если урл не меняется то да
источник