Size: a a a

2021 February 10

DO

Daniil Okhlopkov in Scrapy
Andrey Rahmatullin
Возможно, для этой задачи можно и не рендерить, кроме вот последних случаев
Спасибо за ответ.

Вот и хотелось бы как-то выделить последние случаи "как определить по html, что его нужно дорендерить".
Но в моей задаче, похоже, это нужно делать, если из html не удалось достать текст / метаданные или еще чего-то базового и важного.
источник

AR

Andrey Rahmatullin in Scrapy
Типа того
источник

DO

Daniil Okhlopkov in Scrapy
Andrey Rahmatullin
Ещё кстати нужно будет отличать нормальный ответ от, например, редиректа антибота
Разве антибот не лечится проосто user-agent? Или они могут понять, что я зашел из DigitalOcean и сказать "досвидания"?
источник

AR

Andrey Rahmatullin in Scrapy
😳
источник

AR

Andrey Rahmatullin in Scrapy
Это... интересный взгляд на проблему
источник

DO

Daniil Okhlopkov in Scrapy
Понял)
источник

AR

Andrey Rahmatullin in Scrapy
Нет, всё гораздо хуже :)
источник

AP

Alex Python in Scrapy
js-обусфикация , кто можешь расшифровать?)
источник

AR

Andrey Rahmatullin in Scrapy
Alex Python
js-обусфикация , кто можешь расшифровать?)
Хром
источник

AP

Alex Python in Scrapy
ммм на пост гет запросах юзать хром?
источник

AP

Alex Python in Scrapy
😏
источник

AR

Andrey Rahmatullin in Scrapy
Тогда уточняй что надо расшифровать
источник

DO

Daniil Okhlopkov in Scrapy
Andrey Rahmatullin
Ещё кстати нужно будет отличать нормальный ответ от, например, редиректа антибота
В моем случае, почти все ссылки - это лендосы, а они, насколько я понимаю, наоборот готовы быть распарсенными, чтобы про них узнало как можно больше людей.
источник

AR

Andrey Rahmatullin in Scrapy
Обычно достаточно переписать алгоритм в паука
источник

AR

Andrey Rahmatullin in Scrapy
@okhlopkov я б ещё посмотрел нет ли в https://github.com/TeamHG-Memex чего-то полезного для этой задачи
источник

DO

Daniil Okhlopkov in Scrapy
Andrey Rahmatullin
Возможно, для этой задачи можно и не рендерить, кроме вот последних случаев
Последний вопрос от дилетанта: достаточно ли будет сохранить полученную GET'ом HTML-ку на s3, чтобы потом ее дорендерить в случае необходимости без повтороного GET запроса за этой же html кой?
источник

AP

Alex Python in Scrapy
пытаюсь залогиниться на payeer post get запросами,  а там как мне пояснили стоит эта хренатень и без нее не залогиниться, по этому надо как то это расшифровать
источник

AR

Andrey Rahmatullin in Scrapy
Alex Python
пытаюсь залогиниться на payeer post get запросами,  а там как мне пояснили стоит эта хренатень и без нее не залогиниться, по этому надо как то это расшифровать
Никакой конкретики
источник

AP

Alex Python in Scrapy
Переслано от Ilya Shakin
даров, поснифал я твой паер
источник

AP

Alex Python in Scrapy
Переслано от Ilya Shakin
там js-обусфикация стоят, если расшифруешь - то можно будет авторизоваться
источник