Задача классифицировать сайты. Например: есть гитхаб, там есть внешняя ссылка, нужно понять: это коммерческий проект или просто бесплатная библиотека.
Как планируется делать:
1) Скачать все html страницы всех собранных ссылок
2) Из них достать весь текст / метатеги
3) По ним составить список keywords, которые помогут в нашей классификации (например, наличие слова pricing)
4) Некоторые сайты требуют рендеринга, чтобы выдать хоть какой-нибудь текст, но их должно быть не так много, так как, чтобы лендос индексировался в гугле, создатели должны в html добавить весь необходимый текст для индексации