в довесок скажу 1. надо скрестить оба метода. Тогда при 10 млн записях можно по 1000 ссылок дергать 2. статус меняешь в пайпе. Можно отдельными айтемом, можно тем же.
ну и, это все не истина последней инстанции. Но у меня такая связка (чуток проработанная) успешно работает на десятках млн записях и норм. По хорошему, если у тебя сотни тысяч ссылок, то надо либо свой дупфильтр делать, либо отключать его нахрен, если он не актуален. Ибо нахрен все это хранить в мозгах
Долго не мог понять, в чём проблема)) а я спайдера в from_crawler не возвращал))) п.с. как я понимаю лучше всё таки engine.crawl использовать, вместо engine.shedule, т.к. первый не только внутри второй вызывает