Телеграмм чат группы scrapy_python страница 2409

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

810 membersпожаловаться на группу

2021 February 04

МС

Михаил Синегубов... in Scrapy

Кстати, народ, вроде спрашивал, но забыл что предложили и как именно спрашивал (не нашел поиском) 😳. Где можно министатейки, больше как шпаргалки для себя с кусками кода и небольшими пояснениями что и для чего. А то умаялся шариться по проектам, где что делал. А их уже не совсем мало :)

источник

09:29пожаловаться #1

П

Пастырь in Scrapy

Михаил Синегубов

для старта:
https://stackoverflow.com/questions/46339263/scrapy-get-start-urls-from-database-by-pipeline
https://stackoverflow.com/questions/38658491/scrapy-generate-url-from-database

в довесок скажу
1. надо скрестить оба метода. Тогда при 10 млн записях можно по 1000 ссылок дергать
2. статус меняешь в пайпе. Можно отдельными айтемом, можно тем же.

ну и, это все не истина последней инстанции. Но у меня такая связка (чуток проработанная) успешно работает на десятках млн записях и норм.
По хорошему, если у тебя сотни тысяч ссылок, то надо либо свой дупфильтр делать, либо отключать его нахрен, если он не актуален. Ибо нахрен все это хранить в мозгах

У меня примерно 7кк записей

источник

09:30пожаловаться #2

МС

Михаил Синегубов... in Scrapy

ну, тебе по каждой ссылке один айтем в результате будет? или 100500?

источник

09:30пожаловаться #3

П

Пастырь in Scrapy

Один

источник

09:31пожаловаться #4

МС

Михаил Синегубов... in Scrapy

1. запись в базе можно по ссылке искать (может и "тяжелее" чем по целому числу, но менее геморойнее)
2. на всех записях статус = 0
3. получаешь 1000 записей, ставишь и "1"
4. при сохранении данных в ту же таблицу ставишь статус "2"
5. в spider_idle получаешь след. 1000 записей и генеришь DontCloseSpider, если записи получил из базы
6. кстати, обрати внимание, как реквесты в добавляются в очередь по второй ссылке

источник

09:34пожаловаться #5

OS

Oleg Shleiko in Scrapy

А я другой костыль хреначил....

    def start_requests(self):
        for i in range(0, 100):
            url = get_url_from_db()
            yield scrapy.Request(url=url, callback=self.parse_offers, dont_filter=True)

источник

09:36пожаловаться #6

МС

Михаил Синегубов... in Scrapy

для начала попробуй все это сам реализовать, если что не получится - приходи уже с конкретными вопросами.
Можно кончено заморочаться со всякими очередями и прочими плюшками, но ИМХО это нах не надо, по крайней мере пока

источник

09:36пожаловаться #7

МС

Михаил Синегубов... in Scrapy

А я другой костыль хреначил....

    def start_requests(self):
        for i in range(0, 100):
            url = get_url_from_db()
            yield scrapy.Request(url=url, callback=self.parse_offers, dont_filter=True)

rabbitmq_helper - я так понимаю, человеку надо с кроликом еще разбираться? ничего не имею против его, но, по моему, надо до него дорасти, на не кидаться бездумно в кучу всего нового. Мозг вскипит
ну и, тут не понятно как поступать с 7кк записями, все их всасывать сразу?

я не против твоего метода, просто хз, надо ли сразу такое человеку. По моему, надо дорастать до решений.

источник

09:39пожаловаться #8

OS

Oleg Shleiko in Scrapy

Михаил Синегубов

rabbitmq_helper - я так понимаю, человеку надо с кроликом еще разбираться? ничего не имею против его, но, по моему, надо до него дорасти, на не кидаться бездумно в кучу всего нового. Мозг вскипит
ну и, тут не понятно как поступать с 7кк записями, все их всасывать сразу?

я не против твоего метода, просто хз, надо ли сразу такое человеку. По моему, надо дорастать до решений.

да я не хотел что б вы на кролика зациклились, просто способ сбросил

источник

09:40пожаловаться #9

OS

Oleg Shleiko in Scrapy

исправил....

источник

09:41пожаловаться #10

OS

Oleg Shleiko in Scrapy

по поводу 7кк записей сразу точно не стоит, да и вообще по мне это не малый объём данных, нужно обезапашивать парсинг что б не отвалилось ничего и по новой не распаршивать

источник

09:42пожаловаться #11

МС

Михаил Синегубов... in Scrapy

да я не хотел что б вы на кролика зациклились, просто способ сбросил

а, сорян, ты про "перекрыть start_requests"? Тогда Ок, вполне достойно.
Кстати, в твоем варианте намного проще подтащить доп. данные из базы.

источник

09:43пожаловаться #12

П

Пастырь in Scrapy

Михаил Синегубов

1. запись в базе можно по ссылке искать (может и "тяжелее" чем по целому числу, но менее геморойнее)
2. на всех записях статус = 0
3. получаешь 1000 записей, ставишь и "1"
4. при сохранении данных в ту же таблицу ставишь статус "2"
5. в spider_idle получаешь след. 1000 записей и генеришь DontCloseSpider, если записи получил из базы
6. кстати, обрати внимание, как реквесты в добавляются в очередь по второй ссылке

Могу в личку написать ?

источник

09:46пожаловаться #13

МС

Михаил Синегубов... in Scrapy

по поводу 7кк записей сразу точно не стоит, да и вообще по мне это не малый объём данных, нужно обезапашивать парсинг что б не отвалилось ничего и по новой не распаршивать

так оно то и обезопасится, если писать в базу со сменой статуса, не особо большими кусками.
Кстати, вроде как, можно и все записи записи сразу всосать, но:
1. сцуко, долго будет
2. смысла нет, ибо по п. 1 старт будет ппц, какой долгий

источник

09:46пожаловаться #14

МС

Михаил Синегубов... in Scrapy

Могу в личку написать ?

а нахрена? Или там пентагоновские тайны?
может переписка кому и пригодится. А если боишься глупые вопросы задать, так чего я только не видел. 😂
Ну и, может кто чего более полезного посоветует

источник

09:48пожаловаться #15

П

Пастырь in Scrapy

Михаил Синегубов

а нахрена? Или там пентагоновские тайны?
может переписка кому и пригодится. А если боишься глупые вопросы задать, так чего я только не видел. 😂
Ну и, может кто чего более полезного посоветует

Угадал :D
Статусы я сделал для того, чтобы в случае потери соединения, либо бана, мне не пришлось неделю сидеть заново собирать

источник

09:49пожаловаться #16

П

Пастырь in Scrapy

У меня вообще 2 варианта в голове.
Первый это использовать inmemory хранилище типа redis, импортировать туда все записи, и по 1 доставать. Но тогда теряется отказоустойчивость.
Второй, это брать по 100 записей, менять статус на running, вытащить данные, поставить complete. В случае закрытия паука я потом продолжу с того-же места

источник

09:51пожаловаться #17

П

Пастырь in Scrapy

только вот я не до конца понимаю жизненный цикл скрапи похоже

источник

09:52пожаловаться #18

МС

Михаил Синегубов... in Scrapy

У меня вообще 2 варианта в голове.
Первый это использовать inmemory хранилище типа redis, импортировать туда все записи, и по 1 доставать. Но тогда теряется отказоустойчивость.
Второй, это брать по 100 записей, менять статус на running, вытащить данные, поставить complete. В случае закрытия паука я потом продолжу с того-же места

у меня второй метод постоянно используется. Первый - я кролика не знаю😂

источник

09:52пожаловаться #19

МС

Михаил Синегубов... in Scrapy

только вот я не до конца понимаю жизненный цикл скрапи похоже

а что именно не понятно?

источник

09:53пожаловаться #20