Телеграмм чат группы scrapy_python страница 1638

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

507 membersпожаловаться на группу

2020 June 09

A

в файле куда пишет скрапи есть вот такие записи:

{"Text": null, "Link": null, "Price": null}

я так понимаю когда в одном из результатов поиска данных ничего нет тогда такие записи
как можно проверять и не писать такие данные в файл?

источник

19:53пожаловаться #1

К

Кирилл in Scrapy

Georg

День добрый
Подскажите, как использовать https прокси в aiohttp?
У меня какие-то странные проблемы нито с сертификатами, ни то с чем(

https://github.com/aio-libs/aiohttp/issues/2722

3.0.0b4 HTTPS proxy support · Issue #2722 · aio-libs/aiohttp

Hi, Do you support https proxies? Documentation says that yes, but if I try to pass one to post method it throws Only http proxies are supported. I'm using version 3.0.0b4 async with aiohtt...

источник

19:54пожаловаться #2

К

Кирилл in Scrapy

в файле куда пишет скрапи есть вот такие записи:

{"Text": null, "Link": null, "Price": null}

я так понимаю когда в одном из результатов поиска данных ничего нет тогда такие записи
как можно проверять и не писать такие данные в файл?

Да можно проверять и не писать

источник

19:55пожаловаться #3

A

а как можно проверять, мой код

yield {
                        'Text': data.css('div > p > a::attr(title)').get(),
                        'Link': data.css('div.product-item__i > p > a::attr(href)').get(),
                        'Price': data.css('div.price-box__content-i .price-value::text').get()
                }

примерчик если можно)

источник

19:57пожаловаться #4

К

Кирилл in Scrapy

Вынеси словарь в переменную и перед йелдом проверяй.

if item['Text']:
    yield item

источник

19:59пожаловаться #5

К

Кирилл in Scrapy

Но возможно ты что-то с селекторами напутал, что у тебя пустые значения?

источник

20:00пожаловаться #6

D

Dr. Bot in Scrapy

подскажите пожалуйста. получаю post_id и post_url, в скрапи есть стандартные методы проверки на дубли? спс

источник

20:02пожаловаться #7

D

Dr. Bot in Scrapy

записываю скажем в .csv

источник

20:03пожаловаться #8

D

Dr. Bot in Scrapy

в идеале проверка по post_id

источник

20:04пожаловаться #9

К

Кирилл in Scrapy

Нету. Если у тебя небольшой объем данных, тогда сохраняй post_id в set у паука и делай проверку. А так лучше бд использовать

источник

20:05пожаловаться #10

D

Dr. Bot in Scrapy

бывает от 3 до 50к записей.

источник

20:05пожаловаться #11

К

Кирилл in Scrapy

Думаю сэт потянет, пробуй

источник

20:06пожаловаться #12

D

Dr. Bot in Scrapy

Думаю сэт потянет, пробуй

понял. спасибо. это надо т.е перед проходом парсера, открывать файл и все post_id в set размещать? и делать проверку? а не знаешь, что будет быстрее на таких обьемах, открывать csv ил json?

источник

20:09пожаловаться #13

К

Кирилл in Scrapy

понял. спасибо. это надо т.е перед проходом парсера, открывать файл и все post_id в set размещать? и делать проверку? а не знаешь, что будет быстрее на таких обьемах, открывать csv ил json?

Да, на открытии паука читаешь файл, добавляешь все айдишники в переменную паука с типом set. Или csv или jl(json lines), так как их можно читать построчно. Но это все human readable форматы, в сравнении с другими они все равно будут менее удобным

источник

20:13пожаловаться #14

D

Dr. Bot in Scrapy

а какой самый удобный по твоему? если и csv, и json менее удобные

источник

20:14пожаловаться #15

К

Кирилл in Scrapy

а какой самый удобный по твоему? если и csv, и json менее удобные

Я не пользуюсь файлами особо, Бд намного удобнее, если у тебя 1к+ значений. Для быстрых махинаций можно Mongo взять

источник

20:16пожаловаться #16

К

Кирилл in Scrapy

Уже тогда сможешь и проверки делать, и выборки, и экспорт в json/csv если нужно будет

источник

20:17пожаловаться #17

D

Dr. Bot in Scrapy

Я не пользуюсь файлами особо, Бд намного удобнее, если у тебя 1к+ значений. Для быстрых махинаций можно Mongo взять

понял, спасибо большое. я в целом тоже за БД. но только не монго. sqlite подойдет же?

источник

20:17пожаловаться #18

D

Dr. Bot in Scrapy

монго не подходит. так-как клиентам отдавать скрипт и инстукцию как монго поднять. сложно будет.

источник

20:18пожаловаться #19

К

Кирилл in Scrapy

Что тебе удобнее то и подойдет

источник

20:18пожаловаться #20