Size: a a a

2020 August 23

МБ

Максим Барулин... in Scrapy
Andrey Rahmatullin
зачем в браузере, я про страницы, которые скрапи видит плохими
в респонс не лазал
источник

МБ

Максим Барулин... in Scrapy
SoHard 🎄
а сайт банит? там вообще тор нужен?
да, причём намертво
источник
2020 August 24

МС

Михаил Синегубов... in Scrapy
Максим Барулин
в респонс не лазал
первое что лезет в головую.
достаешь, наверняка через что-то вроде response.xpath('//div/text()').get()
при нормально скорости все Ок. При повышенной нагрузке, или, при запросе с тора (насколько я слышал, он довольно легко палится) оборачиваем некоторые символы пыстыми div'ам. Не уверен, но, по моему, приведенный выше xpath пропустит такие  символы.

и да, если начинаются такие шаманста, смотреть ответ в браузере  - последнее дело. это только сам респонс из паука смотреть, или сохранить его.
источник

А

Александр in Scrapy
Ребят, кому интересно, залетайте на розыгрыш промокодов на сервис распознавания капчи - Рукапча в Инстаграмм
https://bit.ly/2XSmtUD

P.S. Админ разрешил
источник

A

Andrii in Scrapy
Александр
Ребят, кому интересно, залетайте на розыгрыш промокодов на сервис распознавания капчи - Рукапча в Инстаграмм
https://bit.ly/2XSmtUD

P.S. Админ разрешил
Сделаете мидварку для скрапи у вас будет в +++ больше клиентов :)
источник

А

Александр in Scrapy
Andrii
Сделаете мидварку для скрапи у вас будет в +++ больше клиентов :)
Почему бы вам самостоятельно это не сделать и заработать 10% на софтовой партнерке?
источник

МС

Михаил Синегубов... in Scrapy
Александр
Почему бы вам самостоятельно это не сделать и заработать 10% на софтовой партнерке?
потому что там геморой :)
ибо сразу начнуться вопли "лишние каптчи разгадывает", а что бы такого не было, надо сильно во внутренности лезть, как я понимаю
источник

МС

Михаил Синегубов... in Scrapy
Чудищи, хоть бы кто сказал, что не в тот чат набросал😂
источник

А

Артем in Scrapy
Всем привет.
У меня тут проблема с выполнением кода из туториала по Scrapy.  По идее после строки с scrapy.FormRequest я должен был залогиниться на сайте и парсить ссылки в цитатах, которые видны только после входа. Но почему-то вход не происходит, и вместо ссылок у меня None.

Код: https://gist.github.com/52e991c1ae3b62622f131928b78ca045
Вывод: https://gist.github.com/8a82d4b1c63fd231cfe1c1c08fd07cf7

P.S. Я только начал изучать Scrapy, и вполне возможно, что я протупил на какой-то части. Так что прошу не кидаться тапками 😅
источник

AR

Andrey Rahmatullin in Scrapy
чот сложно
источник

А

Артем in Scrapy
Andrey Rahmatullin
чот сложно
Что именно?
источник

AR

Andrey Rahmatullin in Scrapy
ошибку не могу найти
источник

А

Артем in Scrapy
Да вот я почему-то тоже, код полностью взят из туториала.
источник

AR

Andrey Rahmatullin in Scrapy
о, в 1.7.3. работает
источник

AR

Andrey Rahmatullin in Scrapy
в 2.2 сломалось
источник

А

Артем in Scrapy
Действительно, в 1.7.3 у меня всё тоже работает 🤔
источник

AR

Andrey Rahmatullin in Scrapy
игнорится кука из 302 ответа почему-то
источник

AR

Andrey Rahmatullin in Scrapy
источник

KS

Kirill Sosnovskii in Scrapy
У меня есть что-то вроде такого кода:

for url in urls:
     yield response.follow(url, callback=self.parse_category)

yield Request(another_url, callback=self.parse_another_url, priority=1)

Если я хочу, чтобы полностью выполнились response.follow, и только после них просто Request, достаточно вот этого priority=1?
источник

AR

Andrey Rahmatullin in Scrapy
нет, только inline_requests
источник