Size: a a a

2020 May 27

A

Alex in Scrapy
бывают такие сайты с которых не возможно спарсить данные?
источник

AS

Alexander Serebrov in Scrapy
В целом, бывают такие с которых почти невозможно спарсить данные из-за антибот защит
источник

AS

Alexander Serebrov in Scrapy
Но скорее всего у тебя просто неправильные селекторы
источник

AR

Andrey Rahmatullin in Scrapy
Alex
всем привет
вопрос:
на одном сайте когда копирую xpath, получаю такого вида код:
//div[@class="col-md-8"]
а на другом вот такой:
/html/body/app-root/div/div[1]/rz-category/div/main/ctg-catalog/div/div[2]/
почему так?
откуда копируешь?
источник

A

Alex in Scrapy
Andrey Rahmatullin
откуда копируешь?
https://rozetka.com.ua/mobile-phones/c80003/
отсюда пробую
что то вообще никак)
источник

AR

Andrey Rahmatullin in Scrapy
я не об этом
источник

AR

Andrey Rahmatullin in Scrapy
что такое "когда копирую xpath", что ты делаешь для этого?
источник

AR

Andrey Rahmatullin in Scrapy
если это в девелопер тулс copy xpath то это изначально неправильно делать
источник

AR

Andrey Rahmatullin in Scrapy
почему оно при этом разное, уже не так важно, так тулза решила, один хрен это в пауке использовать нельзя
источник

AR

Andrey Rahmatullin in Scrapy
Alex
https://rozetka.com.ua/mobile-phones/c80003/
отсюда пробую
что то вообще никак)
а тут ты ещё и JS не отключил
источник

A

Alex in Scrapy
можешь подсказать как отключить и как правильно парсить такого типа сайты?
или может гайд есть
источник

AR

Andrey Rahmatullin in Scrapy
отключить в браузере, проще через расширение
источник

AR

Andrey Rahmatullin in Scrapy
гайды хз
источник

AR

Andrey Rahmatullin in Scrapy
для начала научись писать руками селекторы, которые селектят только то что надо
источник

A

Alex in Scrapy
а можно рабочий пример с такого сайта
что бы хоть увидеть как выглядит
источник

A

Alex in Scrapy
['<span _ngcontent-sc108="" class="goods-dummy__text"></span>']
должен текст быть но его нет) а почему так хз
источник

VB

Vladyslav Babych in Scrapy
Подскажите пожалуйста. В setting настраиваю логирование -https://gist.github.com/bc7b702f454df5310d062926188a70db. Прохожусь дебагером - везде ERROR. Потом запускаю паука со скрипта https://gist.github.com/f24a20c232d75a4f7b94caf0d5fd7132. В настройках опять же нужный уровень. Внутри класса паука уже уровень  логирования не задан вообще
источник

AR

Andrey Rahmatullin in Scrapy
Alex
а можно рабочий пример с такого сайта
что бы хоть увидеть как выглядит
с какого "такого"? это обычный сайт
источник

A

Alex in Scrapy
для меня он кажется сложным)
потому что не получается тот подход который работал на других сайтах
источник

AR

Andrey Rahmatullin in Scrapy
в чём разница?
источник