Телеграмм чат группы scrapy_python страница 1786

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

567 membersпожаловаться на группу

2020 July 19

AV

Andrei Volkau in Scrapy

@wrar42 Спасибо большое!

Коллеги, если выгружать айтемы пайплайном из scrapy cloud в S3 .
Вопрос: в какую базу их потом лучше забирать?

Реляционную или nosql (например монгу)?

Структура данных: текст объявления, цена и картинка

источник

10:37пожаловаться #1

B

Bulatbulat48 in Scrapy

а при этом visual studio build tools у меня в системе стоят вроде, странно

Создай ишью меинтейнер быстро отвечает.

источник

10:51пожаловаться #2

B

Bulatbulat48 in Scrapy

решил json из js вытаскивать, так он там с одинарными ковычками, и json.loads (ну, верней orjson) плачет что не валидный json, я конечно их тупозаменой заменил на двойные, но что если там какие-нибудь эффекты экранирования возникнут(

В SO есть скрипт исправления, вроде даже тут кидал. Если не найдёшь, пингани я поищу.

источник

10:54пожаловаться #3

SS

Stepan Smirnov in Scrapy

чтобы паук начал собирать куки с сайтов и отправлять их в следующих запросах достаточно поставить COOKIES_ENABLED=True в настройках?

источник

11:03пожаловаться #4

AR

Andrey Rahmatullin in Scrapy

это и так дефолт

источник

11:03пожаловаться #5

SS

Stepan Smirnov in Scrapy

что нужно сделать чтобы ссылки из списка не отправлялись в пайплайн?

источник

11:10пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

это как?

источник

11:10пожаловаться #7

SS

Stepan Smirnov in Scrapy

в пауке
custom_settings = {
'ITEM_PIPELINES': {
'sds.pipelines.PdfFilesPipeline': 1
}
}

Есть список ссылок, которые не должны оказаться в PdfFilesPipeline. Как реализовать запрет на обработку этих ссылок пайплайном, желательно без его переписывания?

источник

11:13пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

никак

источник

11:14пожаловаться #9

AR

Andrey Rahmatullin in Scrapy

ну т.е. "ссылки" конечно никакие пайплайны не обрабатывают

источник

11:14пожаловаться #10

AR

Andrey Rahmatullin in Scrapy

хотя может на самом деле надо вообще не создавать айтемы с этими ссылками, но про это заказчик умолчал

источник

11:14пожаловаться #11

К

Кирилл in Scrapy

Можешь втыкнуть еще один пайплан перед этим который будет фильтровать. Но конечно пайплайн сам должен знать что ему обрабатывать, а что нет

источник

11:15пожаловаться #12

i

ildar in Scrapy

короче, чтобы не выползала первая ошибка надо было обновить build tools с 14.25 до 14.26, а чтобы эта ошибка про io.h не вылезала - надо дополнительно поставить windows 10 sdk там же (в visual studio community installer):
include\pyconfig.h(59): fatal error C1083: ЌҐ г¤ Ґвбп ®вЄалвм д ©« ўЄ«озҐЁҐ: io.h: No such file or directory,
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2019\\Community\\VC\\Tools\\MSVC\\14.26.28801\\bin\\HostX86\\x64\\cl.exe' failed with exit status 2

источник

11:16пожаловаться #13

i

ildar in Scrapy

и после этого Successfully installed chompjs-1.0.16

источник

11:16пожаловаться #14

i

ildar in Scrapy

чо ржачно, шоб либку на 7 кб поставить, пришлось 2.5 гига херни этой наинсталлить)

источник

11:17пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

да, быстрее было бы машинный код написать самому

источник

11:28пожаловаться #16

i

ildar in Scrapy

В SO есть скрипт исправления, вроде даже тут кидал. Если не найдёшь, пингани я поищу.

да, скинь если найдешь плиз, пригодится в будущем, а то я пока нашел ast.literal.eval, но на моих данных он помирает с ValueError: malformed node or string:
и demjson.decode, но работает по-сравнению с тупо-заменой одинарных на двойные кавычки и затем orjson.loads очень медленно.

источник

11:44пожаловаться #17

i

ildar in Scrapy

а так chompjs в принципе неплохо отрабатывает, шустрее чем demjson.decode

источник

11:45пожаловаться #18

i

ildar in Scrapy

интересно, в качестве оффтопа, почему на куче сайтов внутри <script> поля в этих json не по-стандарту обвешаны одинарными кавычками

источник

12:05пожаловаться #19

AR

Andrey Rahmatullin in Scrapy

интересно, в качестве оффтопа, почему на куче сайтов внутри <script> поля в этих json не по-стандарту обвешаны одинарными кавычками

потому что это не json

источник

12:07пожаловаться #20