Size: a a a

2020 July 04

AR

Andrey Rahmatullin in Scrapy
потому что в пхп нет массивов
источник

AR

Andrey Rahmatullin in Scrapy
лучше ищи как ты из показанного изначально ['-', '-', ' 22:29:00', '-', '-', ' 22:29:00'] сделал вот это
источник

AR

Andrey Rahmatullin in Scrapy
но с многоточием вместо бесконечной рекурсии прикольная тема, не знал
источник
2020 July 05

i

init5 in Scrapy
hi
источник

SS

Stepan Smirnov in Scrapy
Мой прокси провайдер обновляет список актуальных проксей с заданной периодичностью, выдает их по простому GET запросу. Каким образом можно реализовать обновление списка актуальных проксей для парсинга который длится  дольше чем частота обновления списка?
источник

К

Кирилл in Scrapy
Stepan Smirnov
Мой прокси провайдер обновляет список актуальных проксей с заданной периодичностью, выдает их по простому GET запросу. Каким образом можно реализовать обновление списка актуальных проксей для парсинга который длится  дольше чем частота обновления списка?
Каким прокси ротатором пользуешься?
источник

SS

Stepan Smirnov in Scrapy
Кирилл
Каким прокси ротатором пользуешься?
источник

К

Кирилл in Scrapy
Ох, тут тебе самому писать нужно, по таймеру чтоб обновлялось свойство со списком
источник

К

Кирилл in Scrapy
Или LoopingCall или CallLater, при создании этого миделвера
источник

SS

Stepan Smirnov in Scrapy
Кирилл
Ох, тут тебе самому писать нужно, по таймеру чтоб обновлялось свойство со списком
я готов поменять ротатор, если гдк то уже реализовано обновление по таймеру
источник

К

Кирилл in Scrapy
Не помню таких, где-то был ротатор с монгой бд, там по идее это проще сделать, просто класть их в бд, и оно само их будет оттуда брать
источник

iz

izzz zzi in Scrapy
Stepan Smirnov
Мой прокси провайдер обновляет список актуальных проксей с заданной периодичностью, выдает их по простому GET запросу. Каким образом можно реализовать обновление списка актуальных проксей для парсинга который длится  дольше чем частота обновления списка?
у меня https://github.com/xiaowangwindow/scrapy-rotated-proxy
внешний скрипт на кроне раз в час обновляет прокси в бд, паук уже берет из бд
источник

К

Кирилл in Scrapy
Ага, я про этот ротатор
источник

D

Dr. Bot in Scrapy
Всем привет! Заказали парсер рутрекера, сделал к примеру этого раздела: https://rutracker.org/forum/viewforum.php?f=2199 , собрал все доступные ссылки на топики, сохранил в текстовый файл ссылки ни них. Прошло 3 дня, хочу собрать только новые, после прохода каждой страницы, делаю проверку на уже добавленные. Но бывает в некоторых разделах так, что скажем спустя неделю новый топик без ответа может улететь на 2 страницу, а проверка покажет что на 1 странице новых нет. Что посоветуете?


Привел пример с понятным форумом, но такие задачи часто бывают в разных зарубежных сервисах. Как грамотнее поступать?
источник

D

Dr. Bot in Scrapy
Сейчас приходится собирать 10 страниц и проверять есть или нет. Но это не очень красивое решение
источник

AR

Andrey Rahmatullin in Scrapy
ну а какие варианты кроме сортировки по дате создания
источник

D

Dr. Bot in Scrapy
на этом форуме она через JS, но повторюсь. это пример. часто попадалось на разных сервисах, что нет сортировок
источник

AR

Andrey Rahmatullin in Scrapy
тогда сокращу до "ну а какие варианты".
источник

OS

Oleg Shleiko in Scrapy
А бд нельзя прикрутить?
источник

D

Dr. Bot in Scrapy
выходит только так и делать. заведомо больше собирать страниц
источник