Телеграмм чат группы scrapy_python страница 1595

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

490 membersпожаловаться на группу

2020 May 28

МС

Михаил Синегубов... in Scrapy

потом буду медитировать

источник

22:41пожаловаться #1

B

Boris in Scrapy

У меня вот такой вопрос. Я всегда раньше парсил следующим образом:
1. Получал html-страницу
2. Парсил
3. Сохранял данные в базу

Сейчас думаю над таким подходом:
1. Получить html-страницу
2. Сохранить её (в БД, на диск?)
3. Распарсить
4. Сохранить данные в базу

Для чего это нужно?
Пример из жизни: парсил ~7 000 000 страниц и только по окончанию парсинга обратил внимание, что забыл спарсить одно из полей у item'а.

Вопрос: имеет ли такой подход право на жизнь и если да, то куда лучше сохранять нераспаршенные html страницы?

источник

23:46пожаловаться #2

МС

Михаил Синегубов... in Scrapy

Вообще, у скрапи есть кэш

источник

23:50пожаловаться #3

B

Boris in Scrapy

Ну, объём кэша ~ на терабайт получается: 7 000 000 * 150кб = 1 050 000 000 = ~1TB

источник

23:51пожаловаться #4

B

Boris in Scrapy

В кэше не особо хотелось бы хранить, т.к. вдруг потом понадобиться не из скрапи к скачанным данным обращаться

источник

23:52пожаловаться #5

B

Boris in Scrapy

Скрапи ведь на диске кэширует?

источник

23:52пожаловаться #6

iz

izzz zzi in Scrapy

Я генерирую json для некоторых проектов и туда закидываю параметры

источник

23:53пожаловаться #7

B

Boris in Scrapy

В идеале бы конечно сживать всё это дело

источник

23:53пожаловаться #8

iz

izzz zzi in Scrapy

Boris

Скрапи ведь на диске кэширует?

Есть и обвязки на редис и тп

источник

23:53пожаловаться #9

B

Boris in Scrapy

Есть и обвязки на редис и тп

вот это уже лучше

источник

23:53пожаловаться #10

SS

Stepan Smirnov in Scrapy

на больших объемах может выйти дешевле все по второму кругу обойти. Но здесь нужно садиться за эксель и считать.

источник

23:54пожаловаться #11

2020 May 29

К

Константин in Scrapy

Я генерирую json для некоторых проектов и туда закидываю параметры

Зайди в личку

источник

00:02пожаловаться #12

AS

Alexander Serebrov in Scrapy

Михаил Синегубов

хоть в проекте, хоть scrapy shelll, потом уже полез в сплеш.
щас перегрузился под виндой, тот код что под убунтой не работал - работает

В принципе сайт может отпределять OS и считать всех на линуксе подозрительными хацкерами, а всех на винде и маке - хорошими)

https://stackoverflow.com/questions/9514179/how-to-find-the-operating-system-version-using-javascript

How to find the operating system version using JavaScript?

How can I find the OS name and OS version using JavaScript?

источник

00:57пожаловаться #13

AR

Andrey Rahmatullin in Scrapy

Boris

У меня вот такой вопрос. Я всегда раньше парсил следующим образом:
1. Получал html-страницу
2. Парсил
3. Сохранял данные в базу

Сейчас думаю над таким подходом:
1. Получить html-страницу
2. Сохранить её (в БД, на диск?)
3. Распарсить
4. Сохранить данные в базу

Для чего это нужно?
Пример из жизни: парсил ~7 000 000 страниц и только по окончанию парсинга обратил внимание, что забыл спарсить одно из полей у item'а.

Вопрос: имеет ли такой подход право на жизнь и если да, то куда лучше сохранять нераспаршенные html страницы?

Мы как-то кафку для этого юзали

источник

07:46пожаловаться #14

B

Boris in Scrapy

Andrey Rahmatullin

Мы как-то кафку для этого юзали

Спасибо, посмотрю

источник

10:53пожаловаться #15

МС

Михаил Синегубов... in Scrapy

Alexander Serebrov

В принципе сайт может отпределять OS и считать всех на линуксе подозрительными хацкерами, а всех на винде и маке - хорошими)

https://stackoverflow.com/questions/9514179/how-to-find-the-operating-system-version-using-javascript

How to find the operating system version using JavaScript?

How can I find the OS name and OS version using JavaScript?

ну, это не JS точно. Ибо изначально из под скрапи пробовал
ubuntu/win без никаких корректировок было.

источник

11:00пожаловаться #16

МС

Михаил Синегубов... in Scrapy

на уровне домыслов, может дело быть в TTL пакетов...
вроде на хабре была на эту тему статья, но там было про распознавание мобильного трафика....
просто других мыслей нет, от слова совсем

источник

11:16пожаловаться #17

AS

Alexander Serebrov in Scrapy

Михаил Синегубов

ну, это не JS точно. Ибо изначально из под скрапи пробовал
ubuntu/win без никаких корректировок было.

@Verz1Lka когда-то про это говорил, я точно деталей не помню, но вроде как-то определяют с какой ОС зашли на сайт, может Евгений сможет точнее сказать 😅

источник

11:29пожаловаться #18

МС

Михаил Синегубов... in Scrapy

Alexander Serebrov

@Verz1Lka когда-то про это говорил, я точно деталей не помню, но вроде как-то определяют с какой ОС зашли на сайт, может Евгений сможет точнее сказать 😅

https://subinsb.com/default-device-ttl-values/

так то да, дефолтный TTL отличается....

Default TTL (Time To Live) Values of Different OS

источник

11:31пожаловаться #19

МС

Михаил Синегубов... in Scrapy

теперь бы добраться - тестануть....

источник

11:31пожаловаться #20