Size: a a a

2020 December 11

К

Кирилл in Scrapy
Так он и пишет, что если выключить BaseDupeFilter то включается нормальный и там каких-то страниц мало
источник

AR

Andrey Rahmatullin in Scrapy
ну да, дупы отфильтровались
источник

B

Balloon Fighter 🎈 in Scrapy
Почему дубли возникают не для всех записей?
источник

B

Balloon Fighter 🎈 in Scrapy
Меня вот это смущает очень
источник

B

Balloon Fighter 🎈 in Scrapy
Если по результату json пробежаться и повыгрызать повторения - это же не правильно будет? Так не делает же никто?
источник

К

Кирилл in Scrapy
Смотря где дубли. Видимо некоторые компании одинаковые, что логично.
источник

AR

Andrey Rahmatullin in Scrapy
да кто вас знает что там происходит, смотреть надо, лог в первую очередь
источник

AR

Andrey Rahmatullin in Scrapy
может там селекторы кривые, по ним видно что они могут
источник

К

Кирилл in Scrapy
Включи DUPEFILTER_DEBUG и посмотри что там
источник

МС

Михаил Синегубов... in Scrapy
с выключенным BaseFilter сколько результатов? по идее, должно быть 3170
источник

B

Balloon Fighter 🎈 in Scrapy
Победил. Включил dont_filter=True, DUPEFILTER закоментирован. Проверил на дубли экспортом в бд. Сейчас 3129 уникальных записи

yield scrapy.Request(company_url, callback=self.parse_company, meta={'data':data}, dont_filter=True)
источник

МС

Михаил Синегубов... in Scrapy
если ты на самом деле со всех страниц собираешь
источник

B

Balloon Fighter 🎈 in Scrapy
3170 это с дублями. Теперь BaseFilter выключен, а dont_filter=True\
источник

B

Balloon Fighter 🎈 in Scrapy
Спасибо вам всем, ребята!
источник

M

Max in Scrapy
привет. заданы allowed_domains = ['foo.com'] дальше по start_requests выполняется запрос на foo.com который редиректит с 301 кодом на bar.com, не могу понять почему он не фильтруется, есть предположения?
источник

AR

Andrey Rahmatullin in Scrapy
куда-то закрался dont_filter=True
источник

M

Max in Scrapy
подозрения на scrapy-rotating-proxy
источник

SS

Stepan Smirnov in Scrapy
therealreal.com
после 10 запроса паук получает каптчу, ротация проксей, куки не помогают.
Что надо сделать чтобы обойти защиту? Решать каптчу?

Код:
https://pastebin.com/gjZFGs0d
источник

AR

Andrey Rahmatullin in Scrapy
а руками в браузере так же?
источник

SS

Stepan Smirnov in Scrapy
если отключать JS - то похоже
источник