Телеграмм чат группы scrapy_python страница 1731

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

517 membersпожаловаться на группу

2020 July 05

D

Dr. Bot in Scrapy

А бд нельзя прикрутить?

ну допустим вместо сохраненных ссылок в файл. они в БД, так иногда делал когда больше 10к ссылок. но это не помогает решить мою проблему. а проблема в том, как оптимально проверить на наличие новых записей, если на 1 странице только старые. а 2 странице могут быть новые. если на форуме(сайте/сервисе) дебильная система и все темы где отвечают юзеры, отображаются на 1 странице

источник

15:31пожаловаться #1

S

SoHard 🎄 in Scrapy

ну допустим вместо сохраненных ссылок в файл. они в БД, так иногда делал когда больше 10к ссылок. но это не помогает решить мою проблему. а проблема в том, как оптимально проверить на наличие новых записей, если на 1 странице только старые. а 2 странице могут быть новые. если на форуме(сайте/сервисе) дебильная система и все темы где отвечают юзеры, отображаются на 1 странице

это не дибильная система а сортировка по последнему ответу

источник

15:32пожаловаться #2

OS

Oleg Shleiko in Scrapy

get or create и вся проблема, не?

источник

15:32пожаловаться #3

D

Dr. Bot in Scrapy

это не дибильная система а сортировка по последнему ответу

ну да. говорю же дебильная ) шучу. она норм. про100 бывает, что на сайте нет фильтров для сортировки по дате. это обламывает конечно, для парсера

источник

15:32пожаловаться #4

t

tfhx8 in Scrapy

а используя скрапи и селениум, используют подобное, что нужно ввести данные в некие формы и нажимать кнопки?

источник

15:49пожаловаться #5

AR

Andrey Rahmatullin in Scrapy

зависит от задачи

источник

15:50пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

иногда при этом не нужен селениум, иногда скрапи

источник

15:51пожаловаться #7

D

Dr. Bot in Scrapy

видать телефоны с авито всё пробуют собирать 🙂

источник

15:53пожаловаться #8

И

Илья in Scrapy

Как сделать правильно пайплайн в mysql с точки зрения проектирования ? мне надо проверять есть ли такой элемент в базе и в зависимости от заполнености, паук решает нужно ли ему продолжать парсить или переходить к следующей странице. Эти все проверки и действия нужно запихнуть в pipeline.py или делать отдельный файл с функциями и обращаться к нему по мере необходимости ??

источник

17:48пожаловаться #9

И

Илья in Scrapy

еще туда же... как долго держать соединение с базой открытым ? на все время выполнения пауком своих грязных дел или закрывать после каждой операции ?

источник

17:53пожаловаться #10

К

Кирилл in Scrapy

Илья

еще туда же... как долго держать соединение с базой открытым ? на все время выполнения пауком своих грязных дел или закрывать после каждой операции ?

Просто писать пачками

источник

17:58пожаловаться #11

К

Кирилл in Scrapy

Илья

Как сделать правильно пайплайн в mysql с точки зрения проектирования ? мне надо проверять есть ли такой элемент в базе и в зависимости от заполнености, паук решает нужно ли ему продолжать парсить или переходить к следующей странице. Эти все проверки и действия нужно запихнуть в pipeline.py или делать отдельный файл с функциями и обращаться к нему по мере необходимости ??

Если нужно управлять пауками, тогда по логике это экстеншены наверное. Не пайплайны

источник

18:02пожаловаться #12

A

Archie in Scrapy

Илья

Как сделать правильно пайплайн в mysql с точки зрения проектирования ? мне надо проверять есть ли такой элемент в базе и в зависимости от заполнености, паук решает нужно ли ему продолжать парсить или переходить к следующей странице. Эти все проверки и действия нужно запихнуть в pipeline.py или делать отдельный файл с функциями и обращаться к нему по мере необходимости ??

сделать еще один пайплайн против дубликатов , и если они есть , выбрасывать DropItem с коробки scrapy

источник

18:12пожаловаться #13

A

Archie in Scrapy

чтото типо этого

источник

18:13пожаловаться #14

И

Илья in Scrapy

какой это модуль ?

источник

18:14пожаловаться #15

A

Archie in Scrapy

Илья

еще туда же... как долго держать соединение с базой открытым ? на все время выполнения пауком своих грязных дел или закрывать после каждой операции ?

держать открытой на все время, иначе будет ошибка

источник

18:15пожаловаться #16

A

Archie in Scrapy

Илья

какой это модуль ?

источник

18:15пожаловаться #17

И

Илья in Scrapy

я понял про что ты, спасибо

источник

18:16пожаловаться #18

iz

izzz zzi in Scrapy

чтото типо этого

а если у тебя будет 2-5кк записей на выборке скорость не упадет?)

источник

18:16пожаловаться #19

И

Илья in Scrapy

вопрос, if exists_article is not None: != if exists_article:

источник

18:17пожаловаться #20