У меня вот такой вопрос. Я всегда раньше парсил следующим образом:
1. Получал html-страницу
2. Парсил
3. Сохранял данные в базу
Сейчас думаю над таким подходом:
1. Получить html-страницу
2. Сохранить её (в БД, на диск?)
3. Распарсить
4. Сохранить данные в базу
Для чего это нужно?
Пример из жизни: парсил ~7 000 000 страниц и только по окончанию парсинга обратил внимание, что забыл спарсить одно из полей у item'а.
Вопрос: имеет ли такой подход право на жизнь и если да, то куда лучше сохранять нераспаршенные html страницы?