Size: a a a

2020 May 28

МС

Михаил Синегубов... in Scrapy
потом буду медитировать
источник

B

Boris in Scrapy
У меня вот такой вопрос. Я всегда раньше парсил следующим образом:
1. Получал html-страницу
2. Парсил
3. Сохранял данные в базу

Сейчас думаю над таким подходом:
1. Получить html-страницу
2. Сохранить её (в БД, на диск?)
3. Распарсить
4. Сохранить данные в базу

Для чего это нужно?
Пример из жизни: парсил ~7 000 000 страниц и только по окончанию парсинга обратил внимание, что забыл спарсить одно из полей у item'а.

Вопрос: имеет ли такой подход право на жизнь и если да, то куда лучше сохранять нераспаршенные html страницы?
источник

МС

Михаил Синегубов... in Scrapy
Вообще, у скрапи есть кэш
источник

B

Boris in Scrapy
Ну, объём кэша ~ на терабайт получается: 7 000 000 * 150кб = 1 050 000 000 = ~1TB
источник

B

Boris in Scrapy
В кэше не особо хотелось бы хранить, т.к. вдруг потом понадобиться не из скрапи к скачанным данным обращаться
источник

B

Boris in Scrapy
Скрапи ведь на диске кэширует?
источник

iz

izzz zzi in Scrapy
Я генерирую json для некоторых проектов и туда закидываю параметры
источник

B

Boris in Scrapy
В идеале бы конечно сживать всё это дело
источник

iz

izzz zzi in Scrapy
Boris
Скрапи ведь на диске кэширует?
Есть и обвязки на редис и тп
источник

B

Boris in Scrapy
izzz zzi
Есть и обвязки на редис и тп
вот это уже лучше
источник

SS

Stepan Smirnov in Scrapy
на больших объемах может выйти дешевле все по второму кругу обойти. Но здесь нужно садиться за эксель и считать.
источник
2020 May 29

К

Константин in Scrapy
izzz zzi
Я генерирую json для некоторых проектов и туда закидываю параметры
Зайди в личку
источник

AS

Alexander Serebrov in Scrapy
Михаил Синегубов
хоть в проекте, хоть scrapy shelll, потом уже полез в сплеш.
щас перегрузился под виндой, тот код что под убунтой не работал - работает
В принципе сайт может отпределять OS и считать всех на линуксе подозрительными хацкерами, а всех на винде и маке - хорошими)

https://stackoverflow.com/questions/9514179/how-to-find-the-operating-system-version-using-javascript
источник

AR

Andrey Rahmatullin in Scrapy
Boris
У меня вот такой вопрос. Я всегда раньше парсил следующим образом:
1. Получал html-страницу
2. Парсил
3. Сохранял данные в базу

Сейчас думаю над таким подходом:
1. Получить html-страницу
2. Сохранить её (в БД, на диск?)
3. Распарсить
4. Сохранить данные в базу

Для чего это нужно?
Пример из жизни: парсил ~7 000 000 страниц и только по окончанию парсинга обратил внимание, что забыл спарсить одно из полей у item'а.

Вопрос: имеет ли такой подход право на жизнь и если да, то куда лучше сохранять нераспаршенные html страницы?
Мы как-то кафку для этого юзали
источник

B

Boris in Scrapy
Andrey Rahmatullin
Мы как-то кафку для этого юзали
Спасибо, посмотрю
источник

МС

Михаил Синегубов... in Scrapy
Alexander Serebrov
В принципе сайт может отпределять OS и считать всех на линуксе подозрительными хацкерами, а всех на винде и маке - хорошими)

https://stackoverflow.com/questions/9514179/how-to-find-the-operating-system-version-using-javascript
ну, это не JS точно. Ибо изначально из под скрапи пробовал
ubuntu/win без никаких корректировок было.
источник

МС

Михаил Синегубов... in Scrapy
на уровне домыслов, может дело быть в TTL пакетов...
вроде на хабре была на эту тему статья, но там было про распознавание мобильного трафика....
просто других мыслей нет, от слова совсем
источник

AS

Alexander Serebrov in Scrapy
Михаил Синегубов
ну, это не JS точно. Ибо изначально из под скрапи пробовал
ubuntu/win без никаких корректировок было.
@Verz1Lka когда-то про это говорил, я точно деталей не помню, но вроде как-то определяют с какой ОС зашли на сайт, может Евгений сможет точнее сказать 😅
источник

МС

Михаил Синегубов... in Scrapy
Alexander Serebrov
@Verz1Lka когда-то про это говорил, я точно деталей не помню, но вроде как-то определяют с какой ОС зашли на сайт, может Евгений сможет точнее сказать 😅
https://subinsb.com/default-device-ttl-values/

так то да, дефолтный TTL отличается....
источник

МС

Михаил Синегубов... in Scrapy
теперь бы добраться - тестануть....
источник