Size: a a a

2020 July 06

OS

Oleg Shleiko in Scrapy
Alex
странный ты. я сделал паука, выполняет все что мне нужно
хочу улучшить для работы с прокси
в чем упорство?
А при чём тут прокси если вопрос по асинхронности
источник

A

Alex in Scrapy
Oleg Shleiko
А при чём тут прокси если вопрос по асинхронности
это человек чет меня поддергивает, что я парсить авито буду 7 лет
не пойму что он хочет этим сказать
а так да, ты прав вопрос по асинхронности
источник

S

SoHard 🎄 in Scrapy
Alex
Всем привет.
Вопрос такой. Паук с такой структурой. Чет не могу понять как запускать в обработку паралельно все ссылки.

 
class MyParser(scrapy.Spider):
   name = "myparser"
   start_urls = ['https://site.net/', 'https://site1.net/', 'https://site2.net/']
   
   def __init__(self):
       self.profile = webdriver.FirefoxProfile()
       self.profile.set_preference("intl.accept_languages", "ua_RU")
       self.profile.set_preference("dom.disable_open_during_load", False)
       #self.profile.set_preference("general.useragent.override", "[Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36]")
       self.fireFoxOptions = webdriver.FirefoxOptions()
       # self.fireFoxOptions.set_headless()
       self.driver = webdriver.Firefox(firefox_profile=self.profile, seleniumwire_options=self.options)
 
   def parse(self, response):
     pass
тебе надо отдельно запускать каждый драйвер для каждого потока
источник

S

SoHard 🎄 in Scrapy
и это очень хорошо сожрет всю твою оперативу
источник

A

Andrii in Scrapy
Я максимум 6 драйвером создал, но работали они не стабильно
источник

A

Alex in Scrapy
SoHard 🎄
тебе надо отдельно запускать каждый драйвер для каждого потока
да об этом и думал)
но только вот как?
а оперативы хватит, мне 3-4 потока нужно
источник

A

Alex in Scrapy
Andrii
Я максимум 6 драйвером создал, но работали они не стабильно
а как правильно вызывать?
в этом проблема)
источник

A

Alex in Scrapy
источник

OS

Oleg Shleiko in Scrapy
Из небольшого опыта работы с селениумом: у нас больше просада по ядрам чем по оперативе
источник

A

Andrii in Scrapy
Ну у каждого свое тз, мне вообще покер нужно на 6 игроков протестировать 😂
источник

AR

Andrey Rahmatullin in Scrapy
нет конечно
источник

AR

Andrey Rahmatullin in Scrapy
и не ищи в доке про скрапи как работать с селениумом
источник

A

Andrii in Scrapy
Alex
да об этом и думал)
но только вот как?
а оперативы хватит, мне 3-4 потока нужно
Я думаю что лучше всего архитектуру на авс скелинг построить, под сколько нужно потоков
источник

A

Alex in Scrapy
Andrey Rahmatullin
и не ищи в доке про скрапи как работать с селениумом
я уже понял)
источник

S

SoHard 🎄 in Scrapy
а Splash тут не подойдёт? я с ним еще не работал, но он же тоже js выполняет
источник

OS

Oleg Shleiko in Scrapy
SoHard 🎄
а Splash тут не подойдёт? я с ним еще не работал, но он же тоже js выполняет
Я сказать точно не смогу, так как и сам не сильно со сплэш поработал, но попробовать стоит
источник

S

SoHard 🎄 in Scrapy
я то уже пробовал такое с селениумом сделать, но не помню где и как) но по итогу отказался ибо все очень медленно было
источник

A

Alex in Scrapy
мда... сложна
источник

A

Andrii in Scrapy
А кто сказал что будет просто (с)
источник

A

Alex in Scrapy
Andrii
А кто сказал что будет просто (с)
соглашусь
источник