Телеграмм чат группы scrapy

Это я что-то делают не так, или heroku postgres полная фигня? Решил прикрутить БД в скрапи. В pipelines>process_item пишу в базу каждый item. С учетом нормализации данных и раскидывания их по таблицам получается 11 SQL-запросов на 1 item. Крейсерская скорость скрапинга без SQL - 650 items/sec. Когда пишу в локальный SQL postgres - 500 items/sec. А когда пробую в heroku postgres - 0.2 (!!) items/sec. То есть 11 последовательных SQL запросов в heroku занимают 5 секунд. Никакие deferToThread и celery тут не помогут, потому что скорости не сопоставимы. Вопросы: 1. Это нормальный перфоманс удаленной SQL бд? 2. Какая правильная архитектура скидывания в базу? Может надо дождаться окончания работы паука и потом пытаться это скидывать это bulk запросом? Может не надо делать никаких нормализаций, а просто тупо писать одну новую строку в базу, а дальше отдельными процессами делать нормализацию?

источник

11:58пожаловаться #4

К

Кирилл in Scrapy

Dmitry

Это я что-то делают не так, или heroku postgres полная фигня? Решил прикрутить БД в скрапи. В pipelines>process_item пишу в базу каждый item. С учетом нормализации данных и раскидывания их по таблицам получается 11 SQL-запросов на 1 item. Крейсерская скорость скрапинга без SQL - 650 items/sec. Когда пишу в локальный SQL postgres - 500 items/sec. А когда пробую в heroku postgres - 0.2 (!!) items/sec. То есть 11 последовательных SQL запросов в heroku занимают 5 секунд. Никакие deferToThread и celery тут не помогут, потому что скорости не сопоставимы. Вопросы: 1. Это нормальный перфоманс удаленной SQL бд? 2. Какая правильная архитектура скидывания в базу? Может надо дождаться окончания работы паука и потом пытаться это скидывать это bulk запросом? Может не надо делать никаких нормализаций, а просто тупо писать одну новую строку в базу, а дальше отдельными процессами делать нормализацию?

Балк запись точно стоит использовать

источник

12:04пожаловаться #5

D

Dmitry in Scrapy

Кирилл

Балк запись точно стоит использовать

Спасибо! А как это правильно сделать изнутри скрапи? Писать в feed jsonlines например, а потом из close_spider в pipeline пытаться открыть локальный файл jsonlines и оттуда писать балком?

К

Спасибо! А как это правильно сделать изнутри скрапи? Писать в feed jsonlines например, а потом из close_spider в pipeline пытаться открыть локальный файл jsonlines и оттуда писать балком?

Где-то в настройках задаешь размер пачки, потом в пайплайне или где ты там пишешь, создаешь список, и проверяешь, если количество айтемов такое же как размер, тогда делаешь запись в бд, а если меньше тогда добавляешь айтем в список

К

Где-то в настройках задаешь размер пачки, потом в пайплайне или где ты там пишешь, создаешь список, и проверяешь, если количество айтемов такое же как размер, тогда делаешь запись в бд, а если меньше тогда добавляешь айтем в список

И по закрытию паука, тоже записываешь остаток, чтоб хвост не терялся

источник

12:10пожаловаться #8

К

Кирилл in Scrapy

По хероку не подскажу, не пользуюсь им, скорость конечно же маленькая, но может быть это нормально для хероку

источник

12:11пожаловаться #9

D

Dmitry in Scrapy

Про пачку только тут видел:

источник

12:14пожаловаться #10

D

Dmitry in Scrapy

https://docs.scrapy.org/en/latest/topics/feed-exports.html#std-setting-FEED_EXPORT_BATCH_ITEM_COUNT

источник

12:14пожаловаться #11

D

Dmitry in Scrapy

If assigned an integer number higher than 0, Scrapy generates multiple output files storing up to the specified number of items in each output file.

источник

12:14пожаловаться #12

D

Dmitry in Scrapy

Это оно?

источник

12:14пожаловаться #13

К

Кирилл in Scrapy

Это для встроенных фид экспортеров, можешь взять это название настройки, но чтоб она работала, тебе еще нужно будет реализовать саму логику. А так можешь взять любое название

источник

12:15пожаловаться #14

D

Dmitry in Scrapy

А, понял, то есть всю логику я сам реализовываю. Грубо создаю лист айтемов в pipelines>process_items, куда сую каждый новый прилетающий айтем. Как только в листе накопилось Х айтемов - пишу балком в SQL через deferToThread. Так?

источник

12:19пожаловаться #15

К

Кирилл in Scrapy

Dmitry

А, понял, то есть всю логику я сам реализовываю. Грубо создаю лист айтемов в pipelines>process_items, куда сую каждый новый прилетающий айтем. Как только в листе накопилось Х айтемов - пишу балком в SQL через deferToThread. Так?

да

источник

12:19пожаловаться #16

D

Dmitry in Scrapy

Спасибо!!

источник

12:19пожаловаться #17

M

Margosha in Scrapy

У кого сплеш стоит можете помочь? Сплэш справиться с таким? https://km20.ru/ Сделайте запрос кто-то

источник