Телеграмм чат группы scrapy_python страница 2159

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

665 membersпожаловаться на группу

2020 November 01

i

Но это по сути все на реквест переписать. Только в реквесте все последовательно будет, и можно, например, при ошибке инпут поставить и прочиать по принтам, в каком мы месте сейчас и в чем проблема.
Я просто в продвинутых техниках дебага не очень силен. Обычно принтами, таймаутами да инпутами «дебажу», глазами на ходу...

да не надо ничего переписывать на реквестах и даже дебажить. ты добавь для начала эти поля. а потом уже будешь смотреть по первым результатам. вдруг все проще будет. кэш еще дисковый вруби чтобы сайт не насиловать по 10 раз

источник

21:52пожаловаться #1

SS

Sergey Sergey in Scrapy

да не надо ничего переписывать на реквестах и даже дебажить. ты добавь для начала эти поля. а потом уже будешь смотреть по первым результатам. вдруг все проще будет. кэш еще дисковый вруби чтобы сайт не насиловать по 10 раз

Буду пробовать) спасибо! Про дисковый кеш не очень понял, но видимо в документации порыскать надо. Он на пост запросы работает? Там все через них...

источник

21:56пожаловаться #2

i

да ему пофигу

источник

22:13пожаловаться #3

i

просто гипотезы на повторных запусках быстрей проверять https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

источник

22:14пожаловаться #4

i

делаешь в сеттингсах:

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 86400 * 1
HTTPCACHE_DIR = 'c:/cache'
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
HTTPCACHE_IGNORE_HTTP_CODES = [400, 401, 402, 403, 404, 405, 406, 407, 500, 501, 502, 503, 504, 505, 506, 507]

и вперед

источник

22:17пожаловаться #5

i

оплатит только когда 376к строк в екселе скинешь

если бы клиент не был с альтернативно-одаренными отмазками и цена была бы норм по рынку и он при этом бы говорил, что "вот боюсь что кинут, прошлый уже кинул", можно было бы придумать оплату по кускам, условно за каждые 10к строк за N рублей - проверяйте, если все норм, платите за следующие, если он так кидалова боится. Если он при этом начнет отмазываться - значит он и сам мамкин кидала)
Это дело даже автоматизировать несложно. Ну или пусть идет на escrow-биржу аля upwork и там уже мутит со сторонней проверкой. Но это так, мысли вслух, если бы это не был мамкин менеджер, менеджерящий штат в 19 человек)))

источник

22:24пожаловаться #6

S

SoHard 🎄 in Scrapy

если бы клиент не был с альтернативно-одаренными отмазками и цена была бы норм по рынку и он при этом бы говорил, что "вот боюсь что кинут, прошлый уже кинул", можно было бы придумать оплату по кускам, условно за каждые 10к строк за N рублей - проверяйте, если все норм, платите за следующие, если он так кидалова боится. Если он при этом начнет отмазываться - значит он и сам мамкин кидала)
Это дело даже автоматизировать несложно. Ну или пусть идет на escrow-биржу аля upwork и там уже мутит со сторонней проверкой. Но это так, мысли вслух, если бы это не был мамкин менеджер, менеджерящий штат в 19 человек)))

Так у него больше 2к нет)

источник

22:31пожаловаться #7

i

Страшные времена. Хотя у меня тоже недавно странная история произошла - клиент сказал "давайте я вам кину аванс, а то тут с нашей стороны проект задерживается, а у вас данных-то пока нет, чтоб дальше продолжить работу", ну я такой "эээ, ну ок". А он взял и полную сумму кинул, за весь проект теоретически рассчитанный по срокам, терь я сижу как дурак по-сути со всеми деньгами за весь проект и жду от него еще данные. Норм так понятие аванса у некоторых заказчиков)

источник

22:34пожаловаться #8

i

Так у него больше 2к нет)

ну так, надо делить, по 100 рублей за 10-20к строк!)

источник

22:34пожаловаться #9

A

Andrii in Scrapy

клиенты очень разные, одному я пишу - сорри, но не потяну ваш проект, так тот еще предлагает обучение оплатить

источник

23:07пожаловаться #10

2020 November 02

•

• • • in Scrapy

Ребят, тут такое дело, очень хочется написать парсер картинок с сайта, но дело в том, что с вебом я никогда не работал. (сам сайт: https://wallhaven.cc)

По сути хочется спарсить все отлайканые картинки, которые хранятся в специальной "папке" юзера
(тут сразу же необходима авторизация, куки или ещё что-то, не уверен)

Структурно папка состоит из страниц, url каждой выглядит так: (домен/favorites?page=1)
На каждой из страниц около 10 картинок-превью, которые содержат ссылки на страницы с source картинкой, так сказать

Таким образом нужно перебрать все url от n до x, для каждой из url запастись ссылками на source страницу, потом перебрать эту страницу на наличие img элемента, и скачать этот элемент в отдельную папку

Последняя страница не содержит img элементов, поэтому по идее можно просто while-ом долбануть

Дополнительно очень хочется реализовать что-то вроде базы данных, которая хранит уже скачанные в архив картинки, и исходя из записей по базе и url страницы было произведено либо скачивание, либо пропуск конкретно этого элемента (дада собираю анимедевочек к себе на компутер =З)

Собственно вопрос: Какие либы понадобятся для всего вышеописанного? Что следует изучить перед тем как шарить по "how to", нужна ли какая-нибудь теория относительно веба и дата баз? Можно ли найти ответ на все вопросы в какой-то одной книге? Вроде задача не сложная, но куда ступать пока не понимаю)

Awesome Wallpapers - wallhaven.cc

Your source for the best high quality wallpapers on the Net!

источник

00:48пожаловаться #11

К

Кирилл in Scrapy

• • •

Ребят, тут такое дело, очень хочется написать парсер картинок с сайта, но дело в том, что с вебом я никогда не работал. (сам сайт: https://wallhaven.cc)

По сути хочется спарсить все отлайканые картинки, которые хранятся в специальной "папке" юзера
(тут сразу же необходима авторизация, куки или ещё что-то, не уверен)

Структурно папка состоит из страниц, url каждой выглядит так: (домен/favorites?page=1)
На каждой из страниц около 10 картинок-превью, которые содержат ссылки на страницы с source картинкой, так сказать

Таким образом нужно перебрать все url от n до x, для каждой из url запастись ссылками на source страницу, потом перебрать эту страницу на наличие img элемента, и скачать этот элемент в отдельную папку

Последняя страница не содержит img элементов, поэтому по идее можно просто while-ом долбануть

Дополнительно очень хочется реализовать что-то вроде базы данных, которая хранит уже скачанные в архив картинки, и исходя из записей по базе и url страницы было произведено либо скачивание, либо пропуск конкретно этого элемента (дада собираю анимедевочек к себе на компутер =З)

Собственно вопрос: Какие либы понадобятся для всего вышеописанного? Что следует изучить перед тем как шарить по "how to", нужна ли какая-нибудь теория относительно веба и дата баз? Можно ли найти ответ на все вопросы в какой-то одной книге? Вроде задача не сложная, но куда ступать пока не понимаю)

Awesome Wallpapers - wallhaven.cc

Your source for the best high quality wallpapers on the Net!

Понадобится scrapy, и будет достаточно внимательно прочитать документацию, там все есть для этой задачи

источник

01:07пожаловаться #12

•

• • • in Scrapy

Понадобится scrapy, и будет достаточно внимательно прочитать документацию, там все есть для этой задачи

Включая даже сохранение информации о "скачанных" файлах?

источник

01:10пожаловаться #13

К

Кирилл in Scrapy

• • •

Включая даже сохранение информации о "скачанных" файлах?

Скрапи легко сможет скачать изображения, достаточно будет только подключить пайплан и указать где ссылки https://docs.scrapy.org/en/latest/topics/media-pipeline.html

источник

01:13пожаловаться #14

•

• • • in Scrapy

Скрапи легко сможет скачать изображения, достаточно будет только подключить пайплан и указать где ссылки https://docs.scrapy.org/en/latest/topics/media-pipeline.html

Окей, спасибо, пороюсь завтра в доках)

источник

01:14пожаловаться #15

A

Andriy in Scrapy

selenium.common.exceptions.WebDriverException: Message: Failed to decode response from marionette

источник

14:55пожаловаться #16

A

Andriy in Scrapy

selenium.common.exceptions.WebDriverException: Message: Failed to decode response from marionette

Как можно исправить такую ошибку?

источник

14:56пожаловаться #17

S

SoHard 🎄 in Scrapy

Как можно исправить такую ошибку?

https://stackoverflow.com/questions/49734915/failed-to-decode-response-from-marionette-message-in-python-firefox-headless-s

"Failed to decode response from marionette" message in Python/Firefox headless scraping script

Good Day, I've done a number of searches on here and google and yet to find a solution that address this problem.

The scenario is:

I have a Python script (2.7) that loops through an number of UR...

источник

14:57пожаловаться #18

S

SoHard 🎄 in Scrapy

можно как-то в скрапи парсить по вот таких вот комментариях?

источник

15:25пожаловаться #19

S

SoHard 🎄 in Scrapy

или регулярки в помощь?

источник

15:25пожаловаться #20