Телеграмм чат группы scrapy

первое что лезет в головую.
достаешь, наверняка через что-то вроде response.xpath('//div/text()').get()
при нормально скорости все Ок. При повышенной нагрузке, или, при запросе с тора (насколько я слышал, он довольно легко палится) оборачиваем некоторые символы пыстыми div'ам. Не уверен, но, по моему, приведенный выше xpath пропустит такие символы.

и да, если начинаются такие шаманста, смотреть ответ в браузере - последнее дело. это только сам респонс из паука смотреть, или сохранить его.

источник

08:47пожаловаться #3

Александр in Scrapy

Ребят, кому интересно, залетайте на розыгрыш промокодов на сервис распознавания капчи - Рукапча в Инстаграмм
https://bit.ly/2XSmtUD

P.S. Админ разрешил

источник

09:42пожаловаться #4

Andrii in Scrapy

Александр

Сделаете мидварку для скрапи у вас будет в +++ больше клиентов :)

источник

14:11пожаловаться #5

Александр in Scrapy

Andrii

Сделаете мидварку для скрапи у вас будет в +++ больше клиентов :)

Почему бы вам самостоятельно это не сделать и заработать 10% на софтовой партнерке?

источник

14:15пожаловаться #6

МС

Михаил Синегубов... in Scrapy

Александр

Почему бы вам самостоятельно это не сделать и заработать 10% на софтовой партнерке?

потому что там геморой :)
ибо сразу начнуться вопли "лишние каптчи разгадывает", а что бы такого не было, надо сильно во внутренности лезть, как я понимаю

источник

14:43пожаловаться #7

МС

Михаил Синегубов... in Scrapy

Чудищи, хоть бы кто сказал, что не в тот чат набросал😂

источник

16:14пожаловаться #8

Артем in Scrapy

Всем привет.
У меня тут проблема с выполнением кода из туториала по Scrapy. По идее после строки с scrapy.FormRequest я должен был залогиниться на сайте и парсить ссылки в цитатах, которые видны только после входа. Но почему-то вход не происходит, и вместо ссылок у меня None.

Код: https://gist.github.com/52e991c1ae3b62622f131928b78ca045
Вывод: https://gist.github.com/8a82d4b1c63fd231cfe1c1c08fd07cf7

P.S. Я только начал изучать Scrapy, и вполне возможно, что я протупил на какой-то части. Так что прошу не кидаться тапками 😅

YouTube

Submitting Forms in your Scrapy Spiders

This is the seventh video of the "Learn Scrapy" series. In this video, you'll learn how to build a spider that can scrape data from behind login walls.

Companion website: https://learn.scrapinghub.com/scrapy/

Scrapy FormRequest docs: https://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.FormRequest

источник

16:58пожаловаться #9

Andrey Rahmatullin in Scrapy

чот сложно

источник

17:28пожаловаться #10

Артем in Scrapy

Andrey Rahmatullin

чот сложно

Что именно?

источник

17:28пожаловаться #11

Andrey Rahmatullin in Scrapy

ошибку не могу найти

источник

17:28пожаловаться #12

Артем in Scrapy

Да вот я почему-то тоже, код полностью взят из туториала.

источник

17:29пожаловаться #13

Andrey Rahmatullin in Scrapy

о, в 1.7.3. работает

источник

17:33пожаловаться #14

Andrey Rahmatullin in Scrapy

в 2.2 сломалось

источник

17:36пожаловаться #15

Артем in Scrapy

Действительно, в 1.7.3 у меня всё тоже работает 🤔

источник

17:37пожаловаться #16

Andrey Rahmatullin in Scrapy

игнорится кука из 302 ответа почему-то

источник

17:37пожаловаться #17

Andrey Rahmatullin in Scrapy

а, это https://github.com/scrapy/scrapy/issues/4717 наверно

GitHub

scrapy.FormRequest.from_response() method failed to login · Issue #4717 · scrapy/scrapy

Description [Description of the issue] Steps to Reproduce Create 2 conda environments one scrapy160 with scrapy 1.6.0 version installed and scrapy230 with scrapy 2.3.0. version installed. conda act...

источник

17:38пожаловаться #18

Kirill Sosnovskii in Scrapy

У меня есть что-то вроде такого кода:

for url in urls:
yield response.follow(url, callback=self.parse_category)

yield Request(another_url, callback=self.parse_another_url, priority=1)

Если я хочу, чтобы полностью выполнились response.follow, и только после них просто Request, достаточно вот этого priority=1?

источник

17:39пожаловаться #19

Andrey Rahmatullin in Scrapy

нет, только inline_requests

источник

17:40пожаловаться #20