Телеграмм чат группы scrapy

10:44пожаловаться #1

i

ildar in Scrapy

Anatolii Shaitanov

Где ты их берёшь? В Network?

ну например, для той ссылки по пагинатору - открываешь нетворк, жмешь на кнопку на сайте, которую тебе надо посмотреть, у тебя там крутится-вертится бегут строчечки такие тыр-тыр-быр-быр-быр, ждешь, когда они примерно до конца добегут, и идешь по этому списку в саааамый верх и видишь самое стартовое действие, в данном случае вида search?keyword... и т.к. оно тупо get-запрос, тебе даже не обязательно смотреть параметры справа или творить какую-то copy as curl(bash) на этом запросе и вставлять в curl.trillworks.com

12:46пожаловаться #2

A

Всем привет! Ребят, подскажите, у кого стояла задача парсить много несруктурированных сайтов из выдачи Google, реально ли через sitemap приблизиться хотя бы к 60% эффективности? Мой пример это на входе сайт- дириктория с 500+ наименованиями новостных сайтов по каждой индустрии типа automative, trade, aviation и тд. Ссылк на сайты деректория не содержит, поэтому колбэками я гуглю каждый сайт по назаванию выбираю регулярками подходящий результат, забираю ссылку и делаю запрос к домену + sitemap.xml. На выходе мне нужены атор статьи и последние 5 статей. Сейчас меня гугл кидает на капчу когда обращаюсь к sitemap, думаю попробовать какой нибудь динамический прокси. Буду благодарен любым комментариям и рекоммендациям по этой задаче, так как с sitemap еще не работал - любая инфа очень важна.

К

Всем привет! Ребят, подскажите, у кого стояла задача парсить много несруктурированных сайтов из выдачи Google, реально ли через sitemap приблизиться хотя бы к 60% эффективности? Мой пример это на входе сайт- дириктория с 500+ наименованиями новостных сайтов по каждой индустрии типа automative, trade, aviation и тд. Ссылк на сайты деректория не содержит, поэтому колбэками я гуглю каждый сайт по назаванию выбираю регулярками подходящий результат, забираю ссылку и делаю запрос к домену + sitemap.xml. На выходе мне нужены атор статьи и последние 5 статей. Сейчас меня гугл кидает на капчу когда обращаюсь к sitemap, думаю попробовать какой нибудь динамический прокси. Буду благодарен любым комментариям и рекоммендациям по этой задаче, так как с sitemap еще не работал - любая инфа очень важна.

Как тебе Гугл кидает капчу, если ты сайт запрашиваешь? На сайтмап не ставят капчу.

13:43пожаловаться #4

К

Можно конечно попробовать через сайтмап, но не уверен что через ссылки можно понять автора и статьи. Скорее это удобнее делать через меню сайтов

13:45пожаловаться #5

A

Как тебе Гугл кидает капчу, если ты сайт запрашиваешь? На сайтмап не ставят капчу.

Вчера гугл мне возвращал капчи , по обращении к сайтмепу или к поисковику - я не уверен, так как до обращения к сайт мепу когда тестил , капчу не возвращало, поэтому такой вывод сделал, но скорее всего ты прав

13:54пожаловаться #6

A

Можно конечно попробовать через сайтмап, но не уверен что через ссылки можно понять автора и статьи. Скорее это удобнее делать через меню сайтов

Ну я просто прошёлся по Google Custom Search немного, там они говорят что есть некие PageMap data , которые позволяют стандартизировать контент от сайта к сайту, не знаю на сколько это рабочий инструмент, но это больше по Search API . Вот здесь читал https://developers.google.com/custom-search/docs/structured_data

14:03пожаловаться #7

A

Можно конечно попробовать через сайтмап, но не уверен что через ссылки можно понять автора и статьи. Скорее это удобнее делать через меню сайтов

Через меню сайтов, да, можно, а ты так собирал?

14:07пожаловаться #8

К

Не видел раньше такого, это типа микроразметка?
Ты конечно можешь это использовать, но я бы не расчитывал что много сайтов реализуют этот подход. Но как один из вариантов, конечно

К

Через меню сайтов, да, можно, а ты так собирал?

Нет, ни разу не было необходимости в массовом парсинге

14:09пожаловаться #10

К

Но названий для постов в меню не так много: posts, articles, blog и т.д.

14:11пожаловаться #11

A

Но названий для постов в меню не так много: posts, articles, blog и т.д.

Именно! В принципе это единственный якорь который приходит сейчас в голову. Но далее скажем я перехожу по news, сохраняю себе response.body или просто весь HTML. С какой вероятностью у меня автор будет размечен одинаково? А Ругуляркой по имени фамилии типа [A-Z][a-z]+/s [A-Z][a-z]+, там наверное борщ будет

14:19пожаловаться #12

К

Ну, я советую тебе использовать кэш, сохранить все страницы, чтоб ты мог быстро вносить правки и перезапускать. А дальше делай один сайт, потом второй, выноси более общее правила и так дальше

14:22пожаловаться #13

A

А ну или можно в регулярней добавить ><

14:22пожаловаться #14

A

Может что то и выйдет

14:22пожаловаться #15

A

Ну, я советую тебе использовать кэш, сохранить все страницы, чтоб ты мог быстро вносить правки и перезапускать. А дальше делай один сайт, потом второй, выноси более общее правила и так дальше

Полезно! Спасибо большое!

14:24пожаловаться #16

A

Andrii in Scrapy

Anton

Именно! В принципе это единственный якорь который приходит сейчас в голову. Но далее скажем я перехожу по news, сохраняю себе response.body или просто весь HTML. С какой вероятностью у меня автор будет размечен одинаково? А Ругуляркой по имени фамилии типа [A-Z][a-z]+/s [A-Z][a-z]+, там наверное борщ будет

Лучше фузивузи реализуй

14:38пожаловаться #17

🎱

🎱 in Scrapy

подскажите, как я могу выбрать только один класс с названием listSelectableStyle, их 4 и они все одинаково называются.

response.css('div.footer div.listSelectableStyle').get()

например так?

18:22пожаловаться #18

К

🎱

подскажите, как я могу выбрать только один класс с названием listSelectableStyle, их 4 и они все одинаково называются.

response.css('div.footer div.listSelectableStyle').get()

например так?

выберется первый

18:24пожаловаться #19

A

Andrii in Scrapy

🎱

подскажите, как я могу выбрать только один класс с названием listSelectableStyle, их 4 и они все одинаково называются.

response.css('div.footer div.listSelectableStyle').get()

например так?

А тебе какой?)