отфильтруй потом ссылки которые ведут на тот же домен и все, никаких подводных камней нету. либо если ты настолько не уверен то поищи в гугле ченить типа "xpath get outer links", увидишь что решается в пару строк и успокоишься
Видимо я не умею ясно выражать свои мысли. Я прекрасно понимаю, как это можно сделать, в тч через xpath. Но ссылки - это одна фича. Их может быть много. Может быть даже то, что я не перечислил. Логично, что все это можно руками сделать, но было бы удобней иметь библу, которая сразу достает все возможные потенциально интересные фичи из html страницы.