Size: a a a

2020 June 04

К

Кирилл in Scrapy
Stepan Smirnov
а это экономически оправданно при большом количестве сайтов?
Да. Если не считать супер общего парса где ты с сайта только тайтл берешь
источник

A

Andrii in Scrapy
Stepan Smirnov
а это экономически оправданно при большом количестве сайтов?
Тогда scrapyd
источник

МС

Михаил Синегубов... in Scrapy
ага, кстати, у меня сейчас задачка наклевывается - 15-20 сайтов, со всех вытащить ОДНО число.
хотелось бы выслушать ораторов :))
на самом деле, есть настроение запилить в одном файлике на реквестах :), либо многопоток, либо асинхрон (если разберусь)
просто, пилить в скрапи в одном файле.... что то не особо, пилить 15-20 пауков для выдергивания 1 числа....
короче, хотелось бы послушать мнение:)
источник

МС

Михаил Синегубов... in Scrapy
Andrii
Тогда scrapyd
а каким боком тут скрапид относится?
источник

К

Кирилл in Scrapy
Смотря что за число и как часто дергать
источник

К

Кирилл in Scrapy
Один раз в день, можно и реквестс
источник

A

Andrii in Scrapy
Михаил Синегубов
а каким боком тут скрапид относится?
Управлять пауками
источник

МС

Михаил Синегубов... in Scrapy
Andrii
Управлять пауками
ну, все равно не понял каким образом это к вопросу относится.
Что оно управляет пауками - это я знаю. Просто вопрос к структуре проекта. Управлять, может вообще самописная система будет... или консолька
источник

A

Alex in Scrapy
с помощью селениума обрабатываю ответ сайта
ну и подумал может сработает вот такая штука
resp = self.driver.get(response.url)
response = self.driver.page_source
и дальше response.xpath
но в response уже строка)
теперь брать данные только так
self.driver.find_element_by_css_selector или с помощью butefulsoup
я все правильно понял?)
источник
2020 June 05

К

Кирилл in Scrapy
Alex
с помощью селениума обрабатываю ответ сайта
ну и подумал может сработает вот такая штука
resp = self.driver.get(response.url)
response = self.driver.page_source
и дальше response.xpath
но в response уже строка)
теперь брать данные только так
self.driver.find_element_by_css_selector или с помощью butefulsoup
я все правильно понял?)
Скрапи использует parsel, можешь явно передавать туда html, если хочешь дальше работать в стиле скрапи
источник

SS

Stepan Smirnov in Scrapy
а можете порекомендовать решения для мэтчинга товаров с различных сайтов?
источник

A

Andrii in Scrapy
Stepan Smirnov
а можете порекомендовать решения для мэтчинга товаров с различных сайтов?
fuzzywuzzy
источник

A

Andrii in Scrapy
Если правильно понял тз
источник

SS

Stepan Smirnov in Scrapy
Хотелось бы найти программу с UI, в которую можно загрузить csv таблицы (может с предварительным автоматическим пэйрингом) и посадить за неё человека, чтобы он подтверждал верные пары товаров.
источник

И

Илья in Scrapy
curl -I --proxy 207.154.231.213:3128 http://httpbin.org   почему в терминале это работает, а тот же самый прокси в пауке  либо failed to connect , либо redirect хер пойми куда, либо на SSL ругается ? Перебирая разные прокси нашел наконец который заработал в пауке, но как определить подходящий прокси если мне их с десяток нужно будет ,?
источник

AR

Andrey Rahmatullin in Scrapy
потому что в пауке у тебя хттпс
источник

🎅B

🎅 Austin Bluethy in Scrapy
Здравтвуйте, я тут немного туплю. Вот у меня есть сайт http://www.example.com/feed.xml
На нем должен быть xml вместо html, так? Но почему в инспекторе html код, а XMLFeedSpider при запуске с crawl выдает 404? Мб я не так запустил или тупой?
источник

AR

Andrey Rahmatullin in Scrapy
ничо не понял
источник

🎅B

🎅 Austin Bluethy in Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
http://www.example.com/feed.xml это действительно 404 с хтмл внутри, а что?
источник