на примере новостей - это что-то типа:
- найти 5000 новостных сайтов
- автоматически выделить текст новости, заголовок, автора, дату, ссылки (если есть), категорию новости в пределах сайта
- собрать чистый датасет, с выделением каждого поля в отдельную колонку; без мусора из html-тэгов и т.п. )