Size: a a a

2020 July 05

A

Archie in Scrapy
Илья
я имею ввиду паука со всей его инфраструктурой итемами пайплайнами сетингс и т . .д
источник

И

Илья in Scrapy
izzz zzi
2)Опять же если у тебя 100+ пауков и в базе 10кк+ запишей выборка будет не особо быстрая
у тебя какое уже промышленное мышление
источник

И

Илья in Scrapy
данке
источник

iz

izzz zzi in Scrapy
Илья
Ваше решение в студию
Item’s отправляется в очередь, из очереди 2-5 воркера пишут их а базу
Итого ты имеешь 2-5 конектов к базе и все заботает
источник

iz

izzz zzi in Scrapy
Илья
у тебя какое уже промышленное мышление
Ну такие обьемы сбора, если ты 1-2 сайта собираешь то может и норм это
источник

К

Кирилл in Scrapy
izzz zzi
Item’s отправляется в очередь, из очереди 2-5 воркера пишут их а базу
Итого ты имеешь 2-5 конектов к базе и все заботает
типа селери, или свои pub/sub написал?
источник

iz

izzz zzi in Scrapy
Кирилл
типа селери, или свои pub/sub написал?
щас кролика использую
источник

И

Илья in Scrapy
мне нужен один сайт, у него довольно таки большая база  и мне надо скрапить привлекая к себе по минимуму внимания. То есть проверяется если айди есть в базе и общая инфа не особо изменилась, то паук пропускает его и идёт к следующему. А вот если нет, то проходит по ссылке вглубь и там уже парсит по полной
источник

iz

izzz zzi in Scrapy
Илья
мне нужен один сайт, у него довольно таки большая база  и мне надо скрапить привлекая к себе по минимуму внимания. То есть проверяется если айди есть в базе и общая инфа не особо изменилась, то паук пропускает его и идёт к следующему. А вот если нет, то проходит по ссылке вглубь и там уже парсит по полной
сделать поле id в базе уникальным и ловить эксепшен что этот id уже есть
источник

И

Илья in Scrapy
Кирилл
типа селери, или свои pub/sub написал?
я думаю среди програмистов есть распространенная практика, что ты пишешь какойто нужный тебе функционал, а его уже кто то до тебя придумал.
источник

A

Archie in Scrapy
Илья
мне нужен один сайт, у него довольно таки большая база  и мне надо скрапить привлекая к себе по минимуму внимания. То есть проверяется если айди есть в базе и общая инфа не особо изменилась, то паук пропускает его и идёт к следующему. А вот если нет, то проходит по ссылке вглубь и там уже парсит по полной
ну вот моим способом можно первым пауком парсить ссылки которых нету в базе, а другим паучком уже по этих ссылках парсить что тебе надо
источник

К

Кирилл in Scrapy
Илья
я думаю среди програмистов есть распространенная практика, что ты пишешь какойто нужный тебе функционал, а его уже кто то до тебя придумал.
разные подходы бывают
источник

A

Archie in Scrapy
Archie
ну вот моим способом можно первым пауком парсить ссылки которых нету в базе, а другим паучком уже по этих ссылках парсить что тебе надо
какраз второй мой проект это  и делает, на двох паучках)
источник

И

Илья in Scrapy
Archie
ну вот моим способом можно первым пауком парсить ссылки которых нету в базе, а другим паучком уже по этих ссылках парсить что тебе надо
sqlalchemy , у меня в проекте просто коннектор. Стоит заменить на алхимию эту ?
источник

A

Archie in Scrapy
Илья
sqlalchemy , у меня в проекте просто коннектор. Стоит заменить на алхимию эту ?
орм юзанул, если потом надо будет не sqlite а норм типо posgres, то просто в settings поменяю конект
источник

i

ildar in Scrapy
Посмотри на dataset, он еще проще)
источник

A

Archie in Scrapy
впринципе нато орм она и есть)
источник

i

ildar in Scrapy
источник

A

Archie in Scrapy
там же идет подключение к оперативной памяти, такое делают просто когда тестят на етапе разработки же
источник

И

Илья in Scrapy
схоронил, спасибо
источник