Size: a a a

2020 July 28

A

Andrii in Scrapy
Anatolii Shaitanov
Но как ты видишь что подгружается именно этот?
Вкладка респонс
источник

i

ildar in Scrapy
Anatolii Shaitanov
Где ты их берёшь? В Network?
ну например, для той ссылки по пагинатору - открываешь нетворк, жмешь на кнопку на сайте, которую тебе надо посмотреть, у тебя там крутится-вертится бегут строчечки такие тыр-тыр-быр-быр-быр, ждешь, когда они примерно до конца добегут, и идешь по этому списку в саааамый верх и видишь самое стартовое действие, в данном случае вида search?keyword... и т.к. оно тупо get-запрос, тебе даже не обязательно смотреть параметры справа или творить какую-то copy as curl(bash) на этом запросе и вставлять в curl.trillworks.com
источник

A

Anton in Scrapy
Всем привет! Ребят, подскажите, у кого стояла задача парсить много несруктурированных сайтов из выдачи  Google, реально ли через sitemap приблизиться хотя бы к 60% эффективности? Мой пример это на входе сайт- дириктория с 500+ наименованиями новостных сайтов по каждой индустрии типа automative, trade, aviation и тд. Ссылк на сайты деректория не содержит, поэтому колбэками я гуглю каждый сайт по назаванию выбираю регулярками подходящий результат, забираю ссылку и делаю запрос к домену + sitemap.xml. На выходе мне нужены атор статьи и последние 5 статей. Сейчас меня гугл кидает на капчу когда обращаюсь к sitemap, думаю попробовать какой нибудь динамический прокси. Буду благодарен любым комментариям и рекоммендациям по этой задаче, так как с sitemap еще не работал - любая инфа очень важна.
источник

К

Кирилл in Scrapy
Anton
Всем привет! Ребят, подскажите, у кого стояла задача парсить много несруктурированных сайтов из выдачи  Google, реально ли через sitemap приблизиться хотя бы к 60% эффективности? Мой пример это на входе сайт- дириктория с 500+ наименованиями новостных сайтов по каждой индустрии типа automative, trade, aviation и тд. Ссылк на сайты деректория не содержит, поэтому колбэками я гуглю каждый сайт по назаванию выбираю регулярками подходящий результат, забираю ссылку и делаю запрос к домену + sitemap.xml. На выходе мне нужены атор статьи и последние 5 статей. Сейчас меня гугл кидает на капчу когда обращаюсь к sitemap, думаю попробовать какой нибудь динамический прокси. Буду благодарен любым комментариям и рекоммендациям по этой задаче, так как с sitemap еще не работал - любая инфа очень важна.
Как тебе Гугл кидает капчу, если ты сайт запрашиваешь? На сайтмап не ставят капчу.
источник

К

Кирилл in Scrapy
Можно конечно попробовать через сайтмап, но не уверен что через ссылки можно понять автора и статьи. Скорее это удобнее делать через меню сайтов
источник

A

Anton in Scrapy
Кирилл
Как тебе Гугл кидает капчу, если ты сайт запрашиваешь? На сайтмап не ставят капчу.
Вчера гугл мне возвращал капчи , по обращении к сайтмепу или к поисковику - я не уверен, так как до обращения к сайт мепу когда тестил , капчу не возвращало, поэтому такой вывод сделал, но скорее всего ты прав
источник

A

Anton in Scrapy
Кирилл
Можно конечно попробовать через сайтмап, но не уверен что через ссылки можно понять автора и статьи. Скорее это удобнее делать через меню сайтов
Ну я просто прошёлся по Google Custom Search немного, там они говорят что есть некие PageMap data , которые позволяют  стандартизировать контент от сайта к сайту, не знаю на сколько это рабочий инструмент, но это больше по Search API . Вот здесь читал https://developers.google.com/custom-search/docs/structured_data
источник

A

Anton in Scrapy
Кирилл
Можно конечно попробовать через сайтмап, но не уверен что через ссылки можно понять автора и статьи. Скорее это удобнее делать через меню сайтов
Через меню сайтов, да, можно, а ты так собирал?
источник

К

Кирилл in Scrapy
Не видел раньше такого, это типа микроразметка?
Ты конечно можешь это использовать, но я бы не расчитывал что много сайтов реализуют этот подход. Но как один из вариантов, конечно
источник

К

Кирилл in Scrapy
Anton
Через меню сайтов, да, можно, а ты так собирал?
Нет, ни разу не было необходимости в массовом парсинге
источник

К

Кирилл in Scrapy
Но названий для постов в меню не так много: posts, articles, blog и т.д.
источник

A

Anton in Scrapy
Кирилл
Но названий для постов в меню не так много: posts, articles, blog и т.д.
Именно! В принципе это единственный якорь который приходит сейчас в голову. Но далее скажем я перехожу по news, сохраняю себе response.body или просто весь HTML. С какой вероятностью у меня автор будет размечен одинаково? А Ругуляркой по имени фамилии типа [A-Z][a-z]+/s [A-Z][a-z]+, там наверное борщ будет
источник

К

Кирилл in Scrapy
Ну, я советую тебе использовать кэш, сохранить все страницы, чтоб ты мог быстро вносить правки и перезапускать. А дальше делай один сайт, потом второй, выноси более общее правила и так дальше
источник

A

Anton in Scrapy
А ну или можно в регулярней добавить ><
источник

A

Anton in Scrapy
Может что то и выйдет
источник

A

Anton in Scrapy
Кирилл
Ну, я советую тебе использовать кэш, сохранить все страницы, чтоб ты мог быстро вносить правки и перезапускать. А дальше делай один сайт, потом второй, выноси более общее правила и так дальше
Полезно! Спасибо большое!
источник

A

Andrii in Scrapy
Anton
Именно! В принципе это единственный якорь который приходит сейчас в голову. Но далее скажем я перехожу по news, сохраняю себе response.body или просто весь HTML. С какой вероятностью у меня автор будет размечен одинаково? А Ругуляркой по имени фамилии типа [A-Z][a-z]+/s [A-Z][a-z]+, там наверное борщ будет
Лучше фузивузи реализуй
источник

🎱

🎱 in Scrapy
подскажите, как я могу выбрать только один класс с названием listSelectableStyle, их 4 и они все одинаково называются.

response.css('div.footer div.listSelectableStyle').get()

например так?
источник

К

Кирилл in Scrapy
🎱
подскажите, как я могу выбрать только один класс с названием listSelectableStyle, их 4 и они все одинаково называются.

response.css('div.footer div.listSelectableStyle').get()

например так?
выберется первый
источник

A

Andrii in Scrapy
🎱
подскажите, как я могу выбрать только один класс с названием listSelectableStyle, их 4 и они все одинаково называются.

response.css('div.footer div.listSelectableStyle').get()

например так?
А тебе какой?)
источник