Size: a a a

2020 June 09

A

Alex in Scrapy
в файле куда пишет скрапи есть вот такие записи:
{"Text": null, "Link": null, "Price": null}
я так понимаю когда в одном из результатов поиска данных ничего нет тогда такие записи
как можно проверять и не писать такие данные в файл?
источник

К

Кирилл in Scrapy
Georg
День добрый
Подскажите, как использовать https прокси в aiohttp?
У меня какие-то странные проблемы нито с сертификатами, ни то с чем(
источник

К

Кирилл in Scrapy
Alex
в файле куда пишет скрапи есть вот такие записи:
{"Text": null, "Link": null, "Price": null}
я так понимаю когда в одном из результатов поиска данных ничего нет тогда такие записи
как можно проверять и не писать такие данные в файл?
Да можно проверять и не писать
источник

A

Alex in Scrapy
а как можно проверять, мой код
yield {
                       'Text': data.css('div > p > a::attr(title)').get(),
                       'Link': data.css('div.product-item__i > p > a::attr(href)').get(),
                       'Price': data.css('div.price-box__content-i .price-value::text').get()
               }
примерчик если можно)
источник

К

Кирилл in Scrapy
Вынеси словарь в переменную и перед йелдом проверяй.
if item['Text']:
   yield item
источник

К

Кирилл in Scrapy
Но возможно ты что-то с селекторами напутал, что у тебя пустые значения?
источник

D

Dr. Bot in Scrapy
подскажите пожалуйста. получаю post_id и post_url, в скрапи есть стандартные методы проверки на дубли? спс
источник

D

Dr. Bot in Scrapy
записываю скажем в .csv
источник

D

Dr. Bot in Scrapy
в идеале проверка по post_id
источник

К

Кирилл in Scrapy
Нету. Если у тебя небольшой объем данных, тогда сохраняй post_id в set  у паука и делай проверку. А так лучше бд использовать
источник

D

Dr. Bot in Scrapy
бывает от 3 до 50к записей.
источник

К

Кирилл in Scrapy
Думаю сэт потянет, пробуй
источник

D

Dr. Bot in Scrapy
Кирилл
Думаю сэт потянет, пробуй
понял. спасибо. это надо т.е перед проходом парсера, открывать файл и все post_id в set размещать? и делать проверку? а не знаешь, что будет быстрее на таких обьемах, открывать csv ил json?
источник

К

Кирилл in Scrapy
Dr. Bot
понял. спасибо. это надо т.е перед проходом парсера, открывать файл и все post_id в set размещать? и делать проверку? а не знаешь, что будет быстрее на таких обьемах, открывать csv ил json?
Да, на открытии паука читаешь файл, добавляешь все айдишники в переменную паука с типом set. Или csv или jl(json lines), так как их можно читать построчно. Но это все human readable форматы, в сравнении с другими они все равно будут менее удобным
источник

D

Dr. Bot in Scrapy
а какой самый удобный по твоему? если и csv, и json менее удобные
источник

К

Кирилл in Scrapy
Dr. Bot
а какой самый удобный по твоему? если и csv, и json менее удобные
Я не пользуюсь файлами особо, Бд намного удобнее, если у тебя 1к+ значений. Для быстрых махинаций можно Mongo взять
источник

К

Кирилл in Scrapy
Уже тогда сможешь и проверки делать, и выборки, и экспорт в json/csv если нужно будет
источник

D

Dr. Bot in Scrapy
Кирилл
Я не пользуюсь файлами особо, Бд намного удобнее, если у тебя 1к+ значений. Для быстрых махинаций можно Mongo взять
понял, спасибо большое. я в целом тоже за БД. но только не монго. sqlite подойдет же?
источник

D

Dr. Bot in Scrapy
монго не подходит. так-как клиентам отдавать скрипт и инстукцию как монго поднять. сложно будет.
источник

К

Кирилл in Scrapy
Что тебе удобнее то и подойдет
источник