Всем привет! Ребят, подскажите, у кого стояла задача парсить много несруктурированных сайтов из выдачи Google, реально ли через sitemap приблизиться хотя бы к 60% эффективности? Мой пример это на входе сайт- дириктория с 500+ наименованиями новостных сайтов по каждой индустрии типа automative, trade, aviation и тд. Ссылк на сайты деректория не содержит, поэтому колбэками я гуглю каждый сайт по назаванию выбираю регулярками подходящий результат, забираю ссылку и делаю запрос к домену + sitemap.xml. На выходе мне нужены атор статьи и последние 5 статей. Сейчас меня гугл кидает на капчу когда обращаюсь к sitemap, думаю попробовать какой нибудь динамический прокси. Буду благодарен любым комментариям и рекоммендациям по этой задаче, так как с sitemap еще не работал - любая инфа очень важна.