Size: a a a

2021 February 06

К

Кирилл in Scrapy
Пупитер так делает вроде
источник

i

i in Scrapy
оба оба
источник

i

i in Scrapy
спасибо, одна проблемка решена без велосипедостроения)
источник

H

Harsh in Scrapy
playwright is official port of nodeJS playwright. And there's scrapy-playwright

https://pypi.org/project/scrapy-playwright/
источник

H

Harsh in Scrapy
Playwright Chromium/Mozzila headless is lightweight compared to selenium
источник

S

SoHard 🎄 in Scrapy
подскажите что делать с яндекс-маркетом, раньше использовал датацентровые прокси и прокатывало, а сейчас они начали походу как-то определять. Кто как обходит их капчи?
источник

AP

Alex Python in Scrapy
надо именно обходить или достаточно решить?)
источник

S

SoHard 🎄 in Scrapy
Alex Python
надо именно обходить или достаточно решить?)
раньше обходилась, думаю может я что-то пропустил
источник

A

AstralRomance in Scrapy
Пытаюсь я вытащить текст из hawk-old-price - он живет вот тут (https://starcitygames.hawksearch.com/sites/starcitygames/?card_name=Adriana%25c%25%20Captain%20of%20the%20Guard):
div class="hawk-results-item__options-table-cell hawk-results-item__options-table-cell--price childAttributes"
       div class="hawk-price-wrapper"
               span class="hawk-old-price"

Делаю я это как-то так:
for card_price in card_box.xpath('.//div[@class="hawk-results-item__options-table-cell hawk-results-item__options-table-cell--price childAttributes"]//div[@class="hawk-price-wrapper"]'):
                               price = card_price.xpath('span[@class="hawk-old-price"]/text()').get().strip()

А оно в итоге не достается, пустой ответ. Что я делаю не так?
источник

A

Andrii in Scrapy
кто подскажет по bs4, можно ли сделать как в парсере, если нет атрибута, что б автоматом ставило Ноне?
источник

A

Ashgaz in Scrapy
Комрады. Я реверс-инжинерю api яндекс карт. Для парсинга of course.
Логика сайта - GET html страницу с запросом поиска, в ней лежит json в <script>. Оттуда заселяются переменные следующего GET запроса, который должен вернуть JSON. В последствии то же самое, только GET заселяется из прошлого JSON.

Паршу: https://yandex.ru/maps/213/moscow/search/%D0%9E%D1%85%D1%80%D0%B0%D0%BD%D0%BD%D0%BE%D0%B5%20%D0%BF%D1%80%D0%B5%D0%B4%D0%BF%D1%80%D0%B8%D1%8F%D1%82%D0%B8%D0%B5/?ll=37.385524%2C55.584222&sll=37.385524%2C55.584222&sspn=7.888184%2C1.166794&z=8
Генерируемый запрос тут: https://pastebin.com/D6CFdTmd
Хэдеры скопировал со своего firefox. Переменные для запроса выдрал regex'ом из html. Все кроме загадочной "s".
Походу она на лету генерируется. Поиск по html-файлу конкретного значения "s" или самой переменной ничего не дал.

Вопрос:
Нужно дебажить javascript и искать где генерируется эта "s"? Как в firefox осилить такое?
источник

S

SoHard 🎄 in Scrapy
Ashgaz
Комрады. Я реверс-инжинерю api яндекс карт. Для парсинга of course.
Логика сайта - GET html страницу с запросом поиска, в ней лежит json в <script>. Оттуда заселяются переменные следующего GET запроса, который должен вернуть JSON. В последствии то же самое, только GET заселяется из прошлого JSON.

Паршу: https://yandex.ru/maps/213/moscow/search/%D0%9E%D1%85%D1%80%D0%B0%D0%BD%D0%BD%D0%BE%D0%B5%20%D0%BF%D1%80%D0%B5%D0%B4%D0%BF%D1%80%D0%B8%D1%8F%D1%82%D0%B8%D0%B5/?ll=37.385524%2C55.584222&sll=37.385524%2C55.584222&sspn=7.888184%2C1.166794&z=8
Генерируемый запрос тут: https://pastebin.com/D6CFdTmd
Хэдеры скопировал со своего firefox. Переменные для запроса выдрал regex'ом из html. Все кроме загадочной "s".
Походу она на лету генерируется. Поиск по html-файлу конкретного значения "s" или самой переменной ничего не дал.

Вопрос:
Нужно дебажить javascript и искать где генерируется эта "s"? Как в firefox осилить такое?
источник

A

AstralRomance in Scrapy
Как нет?
источник

S

SoHard 🎄 in Scrapy
AstralRomance
Как нет?
у тебя xpath начинается со span, а должен начинаться с .//
источник

S

SoHard 🎄 in Scrapy
источник

A

Ashgaz in Scrapy
тогда не пастбин
источник

A

AstralRomance in Scrapy
Понял, спасибо.
источник

A

Ashgaz in Scrapy
в POSTMAN пробовал запрос из браузера переносить. Именно если переменная "s" отсутствует или кривая - 400 получает
источник

AR

Andrey Rahmatullin in Scrapy
SoHard 🎄
у тебя xpath начинается со span, а должен начинаться с .//
Чо вдруг
источник

S

SoHard 🎄 in Scrapy
Andrey Rahmatullin
Чо вдруг
а как?
источник