Size: a a a

2020 March 18

М

Мак in Scrapy
proxy6.net/
что прикольно, недавно отсюда приватный ип4 прокси не подошел для авито 😊
источник

P

PythonBeginner in Scrapy
Всем привет, парни. Посоветуйте пожалуйста что-то годное по библиотеке Scarpy, пожалуйста. До этого работал с requests и beautifulsoup
источник

К

Кирилл in Scrapy
Официальная документация, самое годное
источник

К

Кирилл in Scrapy
Там есть почти всё что нужно, остальное в  https://github.com/bulatbulat48/ru-scrapy-python/blob/master/README.md
источник

RG

Roman Gangal in Scrapy
PythonBeginner
Всем привет, парни. Посоветуйте пожалуйста что-то годное по библиотеке Scarpy, пожалуйста. До этого работал с requests и beautifulsoup
источник

A

Andrii in Scrapy
как лучше сделать
next_page = self.driver.find_element_by_xpath("//button[contains(@class, 'load-more-button')]")
       self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
       if next_page:
           next_page.click()
           print('button clicked')
           ???  --- повторить клик
       else:
           print(f'last page reached
источник

М

Мак in Scrapy
лучше наверное аякс запрос найти и повторить
источник

ww

wowa wowa in Scrapy
Всем привет. Может ли мне кто-нибудь помочь?

Я задавал уже несколько вопросов на сайте Стаковерфлов, безответно. Мне хотелось бы парсить етот сайт: https://www.xtip.de/de/fussball/deutschland-bundesliga   с помощью scrpay, docker и splash. Но, получаю не <html> а javascript функцию.
Пробовал парсить другие сайты,  и у меня удаётся получить их <html>. Но, тем же способом парсить именно етот сайт: https://www.xtip.de/de/fussball/deutschland-bundesliga, мне не удаётся.
Думаю, что Сплеш должен загружать етот сайт, как простой браузер и только потом парсить, когда <html> уже загрузился... Или я ошибаюсь?
Если кто-нибудь сможет мне помочь, буду огромно благодарен!

Здесь мой вопрос на стаковерфлов:    https://stackoverflow.com/questions/60646505/i%c2%b4m-getting-javascript-code-instead-of-rendered-html-content-with-scrapy-splash                                                     Там мой паук, сеттингс и response
источник

К

Кирилл in Scrapy
Сплеш не всегда может справиться, попробуй selenium
источник

ww

wowa wowa in Scrapy
мне сказали что селениум медлений. так ли ето?
источник

К

Кирилл in Scrapy
медленее, чем обычные запросы, но иногда нет другого выхода
источник

ww

wowa wowa in Scrapy
дело в том что мне нужно парсить нескольо сайтов за раз в течении нескольких секунд
источник

К

Кирилл in Scrapy
можешь ещё pyppeteer попробовать, он быстрее, но это порт с js
источник

К

Кирилл in Scrapy
wowa wowa
дело в том что мне нужно парсить нескольо сайтов за раз в течении нескольких секунд
От твоего компа зависит, с селениумом это реально
источник

ww

wowa wowa in Scrapy
хорошо спасибо большое
источник

RG

Roman Gangal in Scrapy
wowa wowa
Всем привет. Может ли мне кто-нибудь помочь?

Я задавал уже несколько вопросов на сайте Стаковерфлов, безответно. Мне хотелось бы парсить етот сайт: https://www.xtip.de/de/fussball/deutschland-bundesliga   с помощью scrpay, docker и splash. Но, получаю не <html> а javascript функцию.
Пробовал парсить другие сайты,  и у меня удаётся получить их <html>. Но, тем же способом парсить именно етот сайт: https://www.xtip.de/de/fussball/deutschland-bundesliga, мне не удаётся.
Думаю, что Сплеш должен загружать етот сайт, как простой браузер и только потом парсить, когда <html> уже загрузился... Или я ошибаюсь?
Если кто-нибудь сможет мне помочь, буду огромно благодарен!

Здесь мой вопрос на стаковерфлов:    https://stackoverflow.com/questions/60646505/i%c2%b4m-getting-javascript-code-instead-of-rendered-html-content-with-scrapy-splash                                                     Там мой паук, сеттингс и response
Это SPA. Фронтенд на JS общается с сервером через json. Тебе нужно перехватывать эти запросы и парсить их.
источник

ww

wowa wowa in Scrapy
есть ли гдето объяснение, как ето делается?
источник

RG

Roman Gangal in Scrapy
wowa wowa
есть ли гдето объяснение, как ето делается?
Погугли "снифинг запросов". Если кратко, открываешь в Хроме панель разработчика F12, загружаешь свой сайт и смотришь вкладку "сеть" там есть все запросы с ответами от сервера. Твоя задача их повторить в своем скрепере
источник

ww

wowa wowa in Scrapy
Roman Gangal
Погугли "снифинг запросов". Если кратко, открываешь в Хроме панель разработчика F12, загружаешь свой сайт и смотришь вкладку "сеть" там есть все запросы с ответами от сервера. Твоя задача их повторить в своем скрепере
спасибо тебе, ты меня выручил. Мне осталось найти json ответ где всё нужное находится.
источник

S

Sergey in Scrapy
wowa wowa
спасибо тебе, ты меня выручил. Мне осталось найти json ответ где всё нужное находится.
Чего его искать то , смотри в response
источник