Телеграмм чат группы scrapy_python страница 2305

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

777 membersпожаловаться на группу

2020 December 17

DO

Daniil Okhlopkov in Scrapy

Возможно криминал

источник

09:53пожаловаться #1

DO

Daniil Okhlopkov in Scrapy

Коллеги, здравствуйте! Я опять с вопросиком.

В своем коде я наплодил кучу scrapy.Item. Один спайдер бегает по сайту и парсит много разных объектов. Теперь я хочу класть каждый объект в свою SQL таблицу в Postgres/BigQuery, но, как я понял, через каждый ItemPipeline проходят сразу все созданные Items.

Расскажите, пожалуйста, Best Practices, как нужно работать с разными Items от одного Spider?

источник

10:39пожаловаться #2

AR

Andrey Rahmatullin in Scrapy

isinstance

источник

10:41пожаловаться #3

DO

Daniil Okhlopkov in Scrapy

Andrey Rahmatullin

isinstance

Понял. Раз это Best Practices - буду так делать. Я просто сомневался

источник

10:42пожаловаться #4

DO

Daniil Okhlopkov in Scrapy

Еще вопрос. Добавляя значения в Item через add_value или add_xpath, они все аппендятся и в результате получаются списки из одного элемента. Чтобы такого не было, нужно в описание класса Item везде написать output_processor=TakeFirst()?

источник

10:48пожаловаться #5

1

15821 in Scrapy

А просто extract_first() уже не в моде?)

источник

10:50пожаловаться #6

МС

Михаил Синегубов... in Scrapy

смотря что тебе надо.
мне как то надо было собрать из нескольких мест дескрипшен, так я Join делал :)
а так, там еще и replace_ХХХ есть

источник

10:51пожаловаться #7

МС

Михаил Синегубов... in Scrapy

кстати, вроде тут проскакивала информация, как сделать не блокирующий реквест в мидлваре.... на напомните?

источник

10:53пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

Daniil Okhlopkov

Еще вопрос. Добавляя значения в Item через add_value или add_xpath, они все аппендятся и в результате получаются списки из одного элемента. Чтобы такого не было, нужно в описание класса Item везде написать output_processor=TakeFirst()?

default_output_processor=TakeFirst()

источник

10:54пожаловаться #9

AR

Andrey Rahmatullin in Scrapy

А просто extract_first() уже не в моде?)

с процессорами оно не вяжется

источник

10:55пожаловаться #10

S

SoHard 🎄 in Scrapy

Михаил Синегубов

нашел какой то костыль, хз начсет рабочести

    def parse(self, response):
        nextreq = Request('http://en.wikipedia.org')
        dfd = defer.Deferred()
        reactor.callLater(DELAY, dfd.callback, nextreq)
        return dfd

тут

источник

10:55пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

Михаил Синегубов

кстати, вроде тут проскакивала информация, как сделать не блокирующий реквест в мидлваре.... на напомните?

просто в шедулер кинуть или результата тут же дождаться?

источник

10:55пожаловаться #12

1

15821 in Scrapy

Andrey Rahmatullin

с процессорами оно не вяжется

Да, спасибо, уже читаю про это

источник

10:55пожаловаться #13

МС

Михаил Синегубов... in Scrapy

Andrey Rahmatullin

просто в шедулер кинуть или результата тут же дождаться?

и так и этак :), мне оба варианта надо :))

источник

10:55пожаловаться #14

AR

Andrey Rahmatullin in Scrapy

просто в шедулер кинуть - https://stackoverflow.com/a/38468666/3923463

Scrapy, make http request in pipeline

Assume I have an scraped item that looks like this

{
name: "Foo",
country: "US",
url: "http://..."
}
In a pipeline I want to make a GET request to the url and check some headers like

источник

10:56пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

на месте - treq c await

источник

10:56пожаловаться #16

МС

Михаил Синегубов... in Scrapy

ага, всем спс. Вроде понял направление

источник

11:02пожаловаться #17

DO

Daniil Okhlopkov in Scrapy

Andrey Rahmatullin

default_output_processor=TakeFirst()

Спасибо.

источник

11:08пожаловаться #18

DO

Daniil Okhlopkov in Scrapy

А есть какой-нибудь легкий способ сохранять логи (особенно ворнинги и error) скрапи в файл? А-то я сейчас запустил спайдер, логи летели так быстро, что самое интересное уже затерлось. Я знаю, что можно шаманить с logging, но вдруг есть что-нибудь приятное из коробки

источник

12:16пожаловаться #19

A

Andrii in Scrapy

Daniil Okhlopkov

А есть какой-нибудь легкий способ сохранять логи (особенно ворнинги и error) скрапи в файл? А-то я сейчас запустил спайдер, логи летели так быстро, что самое интересное уже затерлось. Я знаю, что можно шаманить с logging, но вдруг есть что-нибудь приятное из коробки

Есть в доках как писать в файл

источник

12:20пожаловаться #20