Size: a a a

2020 July 26

i

ildar in Scrapy
а, дочитал до конца, уже решили)
Мне еще в свое время вот этот текст помог: https://docs.scrapy.org/en/latest/topics/broad-crawls.html
источник

UN

User Name in Scrapy
Elisei Badanin
oddschecker.com oddsportal.com хорошо парсятся, если не нужны реал тайм данные
Nowgoal так же отлично парсится
источник

S

SoHard 🎄 in Scrapy
ildar
не может быть такого, что  начинаются холостые срабатывания по dupe-filter? Типа чем дальше в лес, тем больше посещенных ссылок, по которым он уже ходил. У меня примерно так выглядело когда-то подобное снижение скорости.
да странное решение на сайте, из одного айпи можно парсить на всю мощь, но не из одной сессии. Чем дольше парсер работает с куками тем медленнее парсилось, вплоть до 8-9 items/m
источник

К

Кирилл in Scrapy
@wrar42 скрапи рассчитан на длительную работу, если к примеру один запуск будет длиться месяц, или неопределенное время?
источник

AR

Andrey Rahmatullin in Scrapy
да, только память кончится из-за дупфильтра
источник

AR

Andrey Rahmatullin in Scrapy
ну и оно рано или поздно упадёт и надо что-то думать про промежуточные результаты
источник

К

Кирилл in Scrapy
В моём случае дупфильтр можно отключить, нужно регулярно парсить всего одну ссылку
источник

iz

izzz zzi in Scrapy
Кирилл
В моём случае дупфильтр можно отключить, нужно регулярно парсить всего одну ссылку
А много там инфы?
Я обычно ставлю стоп через 12-24 часа и в скрапи веб запуск каждые 12-24 часа соответственно
источник

iz

izzz zzi in Scrapy
Если инфа статичная на стр включи ещё кеш за одно , что бы старые стр обрабатывал быстрее
источник

К

Кирилл in Scrapy
izzz zzi
А много там инфы?
Я обычно ставлю стоп через 12-24 часа и в скрапи веб запуск каждые 12-24 часа соответственно
Немного. А по времени как останавливаешь?
источник

iz

izzz zzi in Scrapy
Кирилл
Немного. А по времени как останавливаешь?
Конфиг
источник

AS

Anatolii Shaitanov in Scrapy
привет
источник

AS

Anatolii Shaitanov in Scrapy
подскажите как мне запустить это циклом?
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
page = driver.find_element_by_css_selector("a[class='c-pagination__link js-pagination-link ']")
page.click()
источник

iz

izzz zzi in Scrapy
Кирилл
Немного. А по времени как останавливаешь?
CLOSESPIDER_TIMEOUT
источник

К

Кирилл in Scrapy
Ага, спасибо уже нашел, вылетело из головы что там по времени тоже есть
источник

К

Кирилл in Scrapy
Anatolii Shaitanov
подскажите как мне запустить это циклом?
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
page = driver.find_element_by_css_selector("a[class='c-pagination__link js-pagination-link ']")
page.click()
оборачиваешь в for или while
источник

AS

Anatolii Shaitanov in Scrapy
Кирилл
оборачиваешь в for или while
та знаю, я просто не могу понять как
источник

AS

Anatolii Shaitanov in Scrapy
ну типа там один елемент для поиска
источник

AS

Anatolii Shaitanov in Scrapy
page = driver.find_element_by_css_selector("a[class='c-pagination__link js-pagination-link ']")
источник

iz

izzz zzi in Scrapy
Anatolii Shaitanov
page = driver.find_element_by_css_selector("a[class='c-pagination__link js-pagination-link ']")
В лист собери его нет ?
источник