Size: a a a

2021 January 21

М

Максим in Scrapy
правда оплата всего 250 руб/час
источник

СК

Семён Кашин... in Scrapy
Здравствуйте! Господа, подскажите, пожалуйста, можно ли как-то в Scrapy получать все коды с которыми вернулись запросы? Я понимаю, что есть Stats Collection, но он статистику выдаст только в конце работы спайдера. А можно ли получать ее (для последующей отправки, например в очередь) прямо во время выполнения?
источник

СК

Семён Кашин... in Scrapy
В теории, под такую задачу подходит download middleware
источник

К

Кирилл in Scrapy
Семён Кашин
Здравствуйте! Господа, подскажите, пожалуйста, можно ли как-то в Scrapy получать все коды с которыми вернулись запросы? Я понимаю, что есть Stats Collection, но он статистику выдаст только в конце работы спайдера. А можно ли получать ее (для последующей отправки, например в очередь) прямо во время выполнения?
Можно, почитай доку по статс
источник

СК

Семён Кашин... in Scrapy
а... в принципе можно перед добавление значения в stats отправлять сообщение куда мне надо
источник

СК

Семён Кашин... in Scrapy
спасибо
источник

МС

Михаил Синегубов... in Scrapy
хм, а разве паук в конце не отдает ВСЕ прилетевшие коды? по крайней мере, у меня, всегда так было...
или надо в какое то другое место получить?
источник

AR

Andrey Rahmatullin in Scrapy
Написано ж что в конце поздно
источник

AR

Andrey Rahmatullin in Scrapy
Семён Кашин
а... в принципе можно перед добавление значения в stats отправлять сообщение куда мне надо
Не понял о чем это, предложили читать статс
источник

i

i in Scrapy
S
Буду использовать только я, и база порядка около 10к
excel шибко умный, в нем надо осторожно данные хранить. Ученым вон пришлось белки переименовывать даже из-за этого. А еще он часто числа как даты или время воспринимает. И нули отбрасывает в начале. Лучше сразу бд, к примеру postgres - из плюсов там еще нативная она для джанго, в будущем проще будет. Либу рекомендую dataset, с ней рабоа с любой базой очень легкая, особенно с транзакциями работать как с with. https://dataset.readthedocs.io/en/latest/
источник

i

i in Scrapy
но  ваще да,  на 10к можно шо угодно использовать, и csv и json
источник

AR

Andrey Rahmatullin in Scrapy
эксель ещё и читать/писать нетривиально из программ, нахрен надо это всё
источник

i

i in Scrapy
ну кстати да, вчера только плакал - пандас не смог в поля, написанные вертикальным текстом, пришлось браться за кирку в виде openpyxl
источник

i

i in Scrapy
(или там merged cells помешало, уж не знаю)
источник

S

S in Scrapy
i
excel шибко умный, в нем надо осторожно данные хранить. Ученым вон пришлось белки переименовывать даже из-за этого. А еще он часто числа как даты или время воспринимает. И нули отбрасывает в начале. Лучше сразу бд, к примеру postgres - из плюсов там еще нативная она для джанго, в будущем проще будет. Либу рекомендую dataset, с ней рабоа с любой базой очень легкая, особенно с транзакциями работать как с with. https://dataset.readthedocs.io/en/latest/
Да сталкивался с этим в excel кстати, да мне посоветовали postgress, вот начну изучение уже на днях спасибо
источник

DO

Daniil Okhlopkov in Scrapy
Расскижите, пожалуйста, как вы запускаете скрапи в продакшене? Когда, например, вам нужно периодически что-то парсить.

Лично я хотел его встроить в ETL Airflow, вдруг кто знает, как это лучше всего (особенно, когда есть селениумы)
источник

i

i in Scrapy
Daniil Okhlopkov
Расскижите, пожалуйста, как вы запускаете скрапи в продакшене? Когда, например, вам нужно периодически что-то парсить.

Лично я хотел его встроить в ETL Airflow, вдруг кто знает, как это лучше всего (особенно, когда есть селениумы)
я  тоже собираюсь это делать на airflow. Если вдруг шо появится - пиши!
источник

i

i in Scrapy
из того что я пока увидел - наверное нужен будет докер. и они прямо сейчас в докере переходят в какого-то популярного конта на гитхабе от юзера на более официальный. А все туторы описывают старый метод еще. И я чет в смятении
источник

i

i in Scrapy
а еще у меня винда с wsl2,  и там свои особенности...
источник

i

i in Scrapy
и хотелось бы как-то это с дебагом запускать
источник