Телеграмм чат группы scrapy

или, перебирать элементы, пока не встретишь элемент....., как его встретил, так сразу breack.

ИМХО циклом это наиболее адекватное и читаемое решение, иначе такого нагородить можно, что потом долго не вкуришь, что понаписал :)

источник

13:10пожаловаться #8

Andrii in Scrapy

Кирилл

источник

13:12пожаловаться #9

Andrii in Scrapy

location = response.xpath("//dt[text()='Address']/..']
address = location.xpath(".//dt[text()='Phone Number']/preceding::dd/text()").getall()

источник

13:12пожаловаться #10

Andrii in Scrapy

простое и красивое решение

источник

13:12пожаловаться #11

Andrey Rahmatullin in Scrapy

да, если надо именно первый блок то проще конечно

источник

13:14пожаловаться #12

Andrii in Scrapy

А теперь очень тупой вопрос. Есть такая штука https://pypi.org/project/cloudscraper/, как ее правильно интегрировать со скрапи?

PyPI

cloudscraper

A Python module to bypass Cloudflare's anti-bot page.

источник

14:50пожаловаться #13

Andrii in Scrapy

фактически не могу никак вписать вот ето, как правильно передать реснонс.бади?

источник

14:51пожаловаться #14

Andrii in Scrapy

scraper = cloudscraper.create_scraper()
scraper.get(url, proxies=proxies).text

источник

14:51пожаловаться #15

Andrey Rahmatullin in Scrapy

нет, передать урл, написано же

источник

15:15пожаловаться #16

Andrey Rahmatullin in Scrapy

cloudScraper works identically to a Requests Session object

источник

15:15пожаловаться #17

Andrii in Scrapy

ну я через свой довнлоадмидваре подключил, даже не знаю на сколько ето правильно

источник

15:19пожаловаться #18

Andrii in Scrapy

по простом сделал такую мидварку

from scrapy.http import HtmlResponse
import cloudscraper

class MtestMiddleware(object):
    def process_request(self, request, spider):
        # only process tagged request or delete this if you want all
        scraper = cloudscraper.create_scraper()  # returns a CloudScraper instance
        proxies = {'http': f'45.136.228.201:80', 'https': f'45.136.228.201:80'}
        r = scraper.get(request.url, proxies=proxies).text
        response = HtmlResponse(url=request.url, body=r, encoding='utf-8')
        return response

но теперь error: `self.logger.info(f'Profile not exists: {response.url}')
AttributeError: 'Selector' object has no attribute 'url'`

источник

15:47пожаловаться #19

Andrey Rahmatullin in Scrapy

код-то покажи который падает

источник

15:48пожаловаться #20