Size: a a a

2020 July 19

AV

Andrei Volkau in Scrapy
@wrar42 Спасибо большое!

Коллеги, если выгружать айтемы пайплайном  из scrapy cloud в S3 .
Вопрос: в какую базу их потом лучше забирать?

Реляционную или nosql (например монгу)?

Структура данных: текст объявления, цена и картинка
источник

B

Bulatbulat48 in Scrapy
ildar
а при этом visual studio build tools у меня в системе стоят вроде, странно
Создай ишью меинтейнер быстро отвечает.
источник

B

Bulatbulat48 in Scrapy
ildar
решил json из js вытаскивать, так он там  с одинарными ковычками, и json.loads (ну, верней orjson) плачет что не валидный json, я конечно их тупозаменой заменил на двойные, но что если там какие-нибудь эффекты экранирования возникнут(
В SO есть скрипт исправления, вроде даже тут кидал. Если не найдёшь, пингани я поищу.
источник

SS

Stepan Smirnov in Scrapy
чтобы паук начал собирать куки с сайтов и отправлять их в следующих запросах достаточно поставить COOKIES_ENABLED=True в настройках?
источник

AR

Andrey Rahmatullin in Scrapy
это и так дефолт
источник

SS

Stepan Smirnov in Scrapy
что нужно сделать чтобы ссылки из списка не отправлялись в пайплайн?
источник

AR

Andrey Rahmatullin in Scrapy
это как?
источник

SS

Stepan Smirnov in Scrapy
в пауке
custom_settings = {
       'ITEM_PIPELINES': {
           'sds.pipelines.PdfFilesPipeline': 1
       }
   }


Есть список ссылок, которые не должны оказаться в PdfFilesPipeline. Как реализовать запрет на обработку этих ссылок пайплайном, желательно без его переписывания?
источник

AR

Andrey Rahmatullin in Scrapy
никак
источник

AR

Andrey Rahmatullin in Scrapy
ну т.е. "ссылки" конечно никакие пайплайны не обрабатывают
источник

AR

Andrey Rahmatullin in Scrapy
хотя может на самом деле надо вообще не создавать айтемы с этими ссылками, но про это заказчик умолчал
источник

К

Кирилл in Scrapy
Можешь втыкнуть еще один пайплан перед этим который будет фильтровать. Но конечно пайплайн сам должен знать что ему обрабатывать, а что нет
источник

i

ildar in Scrapy
короче, чтобы не выползала первая ошибка надо было обновить build tools с 14.25 до 14.26, а чтобы эта  ошибка про io.h не вылезала - надо дополнительно поставить windows 10 sdk там же (в visual studio community installer):
include\pyconfig.h(59): fatal error C1083: ЌҐ г¤ Ґвбп ®вЄалвм д ©« ўЄ«о祭ЁҐ: io.h: No such file or directory,
   error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2019\\Community\\VC\\Tools\\MSVC\\14.26.28801\\bin\\HostX86\\x64\\cl.exe' failed with exit status 2
источник

i

ildar in Scrapy
и после этого Successfully installed chompjs-1.0.16
источник

i

ildar in Scrapy
чо ржачно, шоб либку на 7 кб поставить, пришлось 2.5 гига херни этой наинсталлить)
источник

AR

Andrey Rahmatullin in Scrapy
да, быстрее было бы машинный код написать самому
источник

i

ildar in Scrapy
Bulatbulat48
В SO есть скрипт исправления, вроде даже тут кидал. Если не найдёшь, пингани я поищу.
да, скинь если найдешь плиз, пригодится в будущем, а то я пока нашел ast.literal.eval, но на моих данных он помирает с ValueError: malformed node or string:
и demjson.decode, но  работает по-сравнению с тупо-заменой одинарных на двойные кавычки и затем orjson.loads очень медленно.
источник

i

ildar in Scrapy
а так chompjs в принципе неплохо отрабатывает, шустрее чем demjson.decode
источник

i

ildar in Scrapy
интересно, в качестве оффтопа,  почему на куче сайтов внутри <script> поля в этих  json не по-стандарту обвешаны одинарными кавычками
источник

AR

Andrey Rahmatullin in Scrapy
ildar
интересно, в качестве оффтопа,  почему на куче сайтов внутри <script> поля в этих  json не по-стандарту обвешаны одинарными кавычками
потому что это не json
источник