Size: a a a

2020 November 01

i

i in Scrapy
Sergey Sergey
Но это по сути все на реквест переписать. Только в реквесте все последовательно будет, и можно, например, при ошибке инпут поставить и прочиать по принтам, в каком мы месте сейчас и в чем проблема.
Я просто в продвинутых техниках дебага не очень силен. Обычно принтами, таймаутами да инпутами «дебажу», глазами на ходу...
да не надо ничего переписывать на реквестах и даже дебажить. ты добавь для начала эти поля. а потом уже будешь смотреть по первым результатам. вдруг все проще будет. кэш еще дисковый вруби чтобы сайт не насиловать по 10 раз
источник

SS

Sergey Sergey in Scrapy
i
да не надо ничего переписывать на реквестах и даже дебажить. ты добавь для начала эти поля. а потом уже будешь смотреть по первым результатам. вдруг все проще будет. кэш еще дисковый вруби чтобы сайт не насиловать по 10 раз
Буду пробовать) спасибо! Про дисковый кеш не очень понял, но видимо в документации порыскать надо. Он на пост запросы работает? Там все через них...
источник

i

i in Scrapy
да ему пофигу
источник

i

i in Scrapy
просто гипотезы на повторных запусках быстрей проверять https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
источник

i

i in Scrapy
делаешь в сеттингсах:
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 86400 * 1
HTTPCACHE_DIR = 'c:/cache'
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
HTTPCACHE_IGNORE_HTTP_CODES = [400, 401, 402, 403, 404, 405, 406, 407, 500, 501, 502, 503, 504, 505, 506, 507]
и вперед
источник

i

i in Scrapy
SoHard 🎄
оплатит только когда 376к строк в екселе скинешь
если бы клиент не был с альтернативно-одаренными отмазками и цена была бы норм по рынку и он при этом бы говорил, что "вот боюсь что кинут, прошлый уже кинул", можно было бы придумать оплату по кускам, условно за каждые 10к строк за N рублей - проверяйте, если все норм, платите за следующие, если он так кидалова боится. Если он при этом начнет отмазываться - значит он и сам мамкин кидала)
Это дело даже автоматизировать несложно. Ну или пусть идет на escrow-биржу аля upwork и там уже мутит со сторонней проверкой. Но это так, мысли вслух, если бы это не был мамкин менеджер, менеджерящий штат в 19 человек)))
источник

S

SoHard 🎄 in Scrapy
i
если бы клиент не был с альтернативно-одаренными отмазками и цена была бы норм по рынку и он при этом бы говорил, что "вот боюсь что кинут, прошлый уже кинул", можно было бы придумать оплату по кускам, условно за каждые 10к строк за N рублей - проверяйте, если все норм, платите за следующие, если он так кидалова боится. Если он при этом начнет отмазываться - значит он и сам мамкин кидала)
Это дело даже автоматизировать несложно. Ну или пусть идет на escrow-биржу аля upwork и там уже мутит со сторонней проверкой. Но это так, мысли вслух, если бы это не был мамкин менеджер, менеджерящий штат в 19 человек)))
Так у него больше 2к нет)
источник

i

i in Scrapy
Страшные времена. Хотя у меня тоже недавно странная история произошла - клиент сказал "давайте я вам кину аванс, а то тут с нашей стороны проект задерживается, а у вас данных-то пока нет, чтоб дальше продолжить работу", ну я такой "эээ, ну ок". А он взял и полную сумму кинул, за весь проект теоретически рассчитанный по срокам, терь я сижу как дурак по-сути со всеми деньгами за весь проект и жду от него еще данные. Норм так понятие аванса у некоторых заказчиков)
источник

i

i in Scrapy
SoHard 🎄
Так у него больше 2к нет)
ну так, надо делить, по 100 рублей за 10-20к строк!)
источник

A

Andrii in Scrapy
клиенты очень разные, одному я пишу - сорри, но не потяну ваш проект, так тот еще предлагает обучение оплатить
источник
2020 November 02

• • • in Scrapy
Ребят, тут такое дело, очень хочется написать парсер картинок с сайта, но дело в том, что с вебом я никогда не работал. (сам сайт: https://wallhaven.cc)

По сути хочется спарсить все отлайканые картинки, которые хранятся в специальной "папке" юзера
(тут сразу же необходима авторизация, куки или ещё что-то, не уверен)

Структурно папка состоит из страниц, url каждой выглядит так: (домен/favorites?page=1)
На каждой из страниц около 10 картинок-превью, которые содержат ссылки на страницы с source картинкой, так сказать

Таким образом нужно перебрать все url от n до x, для каждой из url запастись ссылками на source страницу, потом перебрать эту страницу на наличие img элемента, и скачать этот элемент  в отдельную папку

Последняя страница не содержит img элементов, поэтому по идее можно просто while-ом долбануть

Дополнительно очень хочется реализовать что-то вроде базы данных, которая хранит уже скачанные в архив картинки, и исходя из записей по базе и url страницы было произведено либо скачивание, либо пропуск конкретно этого элемента (дада собираю анимедевочек к себе на компутер =З)


Собственно вопрос: Какие либы понадобятся для всего вышеописанного? Что следует изучить перед тем как шарить по "how to", нужна ли какая-нибудь теория относительно веба и дата баз? Можно ли найти ответ на все вопросы в какой-то одной книге? Вроде задача не сложная, но куда ступать пока не понимаю)
источник

К

Кирилл in Scrapy
• • •
Ребят, тут такое дело, очень хочется написать парсер картинок с сайта, но дело в том, что с вебом я никогда не работал. (сам сайт: https://wallhaven.cc)

По сути хочется спарсить все отлайканые картинки, которые хранятся в специальной "папке" юзера
(тут сразу же необходима авторизация, куки или ещё что-то, не уверен)

Структурно папка состоит из страниц, url каждой выглядит так: (домен/favorites?page=1)
На каждой из страниц около 10 картинок-превью, которые содержат ссылки на страницы с source картинкой, так сказать

Таким образом нужно перебрать все url от n до x, для каждой из url запастись ссылками на source страницу, потом перебрать эту страницу на наличие img элемента, и скачать этот элемент  в отдельную папку

Последняя страница не содержит img элементов, поэтому по идее можно просто while-ом долбануть

Дополнительно очень хочется реализовать что-то вроде базы данных, которая хранит уже скачанные в архив картинки, и исходя из записей по базе и url страницы было произведено либо скачивание, либо пропуск конкретно этого элемента (дада собираю анимедевочек к себе на компутер =З)


Собственно вопрос: Какие либы понадобятся для всего вышеописанного? Что следует изучить перед тем как шарить по "how to", нужна ли какая-нибудь теория относительно веба и дата баз? Можно ли найти ответ на все вопросы в какой-то одной книге? Вроде задача не сложная, но куда ступать пока не понимаю)
Понадобится scrapy, и будет достаточно внимательно прочитать документацию, там все есть для этой задачи
источник

• • • in Scrapy
Кирилл
Понадобится scrapy, и будет достаточно внимательно прочитать документацию, там все есть для этой задачи
Включая даже сохранение информации о "скачанных" файлах?
источник

К

Кирилл in Scrapy
• • •
Включая даже сохранение информации о "скачанных" файлах?
Скрапи легко сможет скачать изображения, достаточно будет только подключить пайплан и указать где ссылки https://docs.scrapy.org/en/latest/topics/media-pipeline.html
источник

• • • in Scrapy
Кирилл
Скрапи легко сможет скачать изображения, достаточно будет только подключить пайплан и указать где ссылки https://docs.scrapy.org/en/latest/topics/media-pipeline.html
Окей, спасибо, пороюсь завтра в доках)
источник

A

Andriy in Scrapy
selenium.common.exceptions.WebDriverException: Message: Failed to decode response from marionette
источник

A

Andriy in Scrapy
Andriy
selenium.common.exceptions.WebDriverException: Message: Failed to decode response from marionette
Как можно исправить такую ошибку?
источник

S

SoHard 🎄 in Scrapy
Andriy
Как можно исправить такую ошибку?
источник

S

SoHard 🎄 in Scrapy
можно как-то в скрапи парсить по вот таких вот комментариях?
источник

S

SoHard 🎄 in Scrapy
или регулярки в помощь?
источник