Size: a a a

2020 July 05

D

Dr. Bot in Scrapy
Oleg Shleiko
А бд нельзя прикрутить?
ну допустим вместо сохраненных ссылок в файл. они в БД, так иногда делал когда больше 10к ссылок. но это не помогает решить мою проблему. а проблема в том, как оптимально проверить на наличие новых записей, если на 1 странице только старые. а 2 странице могут быть новые. если на форуме(сайте/сервисе) дебильная система и все темы где отвечают юзеры, отображаются на 1 странице
источник

S

SoHard 🎄 in Scrapy
Dr. Bot
ну допустим вместо сохраненных ссылок в файл. они в БД, так иногда делал когда больше 10к ссылок. но это не помогает решить мою проблему. а проблема в том, как оптимально проверить на наличие новых записей, если на 1 странице только старые. а 2 странице могут быть новые. если на форуме(сайте/сервисе) дебильная система и все темы где отвечают юзеры, отображаются на 1 странице
это не дибильная система а сортировка по последнему ответу
источник

OS

Oleg Shleiko in Scrapy
get or create и вся проблема, не?
источник

D

Dr. Bot in Scrapy
SoHard 🎄
это не дибильная система а сортировка по последнему ответу
ну да. говорю же дебильная ) шучу. она норм. про100 бывает, что на сайте нет фильтров для сортировки по дате. это обламывает конечно, для парсера
источник

t

tfhx8 in Scrapy
а используя скрапи и селениум, используют подобное, что нужно ввести данные в некие формы и нажимать кнопки?
источник

AR

Andrey Rahmatullin in Scrapy
зависит от задачи
источник

AR

Andrey Rahmatullin in Scrapy
иногда при этом не нужен селениум, иногда скрапи
источник

D

Dr. Bot in Scrapy
видать телефоны с авито всё пробуют собирать 🙂
источник

И

Илья in Scrapy
Как сделать правильно пайплайн в mysql с точки зрения проектирования ? мне надо проверять есть ли такой элемент в базе и в зависимости от заполнености, паук решает нужно ли ему продолжать парсить или переходить к следующей странице. Эти все проверки и действия нужно запихнуть в pipeline.py или делать отдельный файл с функциями и обращаться к нему по мере необходимости ??
источник

И

Илья in Scrapy
еще туда же... как долго держать соединение с базой открытым ? на все время выполнения пауком своих грязных дел  или закрывать после каждой операции ?
источник

К

Кирилл in Scrapy
Илья
еще туда же... как долго держать соединение с базой открытым ? на все время выполнения пауком своих грязных дел  или закрывать после каждой операции ?
Просто писать пачками
источник

К

Кирилл in Scrapy
Илья
Как сделать правильно пайплайн в mysql с точки зрения проектирования ? мне надо проверять есть ли такой элемент в базе и в зависимости от заполнености, паук решает нужно ли ему продолжать парсить или переходить к следующей странице. Эти все проверки и действия нужно запихнуть в pipeline.py или делать отдельный файл с функциями и обращаться к нему по мере необходимости ??
Если нужно управлять пауками, тогда по логике это экстеншены наверное. Не пайплайны
источник

A

Archie in Scrapy
Илья
Как сделать правильно пайплайн в mysql с точки зрения проектирования ? мне надо проверять есть ли такой элемент в базе и в зависимости от заполнености, паук решает нужно ли ему продолжать парсить или переходить к следующей странице. Эти все проверки и действия нужно запихнуть в pipeline.py или делать отдельный файл с функциями и обращаться к нему по мере необходимости ??
сделать еще один пайплайн против дубликатов , и если они есть , выбрасывать DropItem с коробки scrapy
источник

A

Archie in Scrapy
чтото типо этого
источник

И

Илья in Scrapy
какой это модуль ?
источник

A

Archie in Scrapy
Илья
еще туда же... как долго держать соединение с базой открытым ? на все время выполнения пауком своих грязных дел  или закрывать после каждой операции ?
держать открытой на все время, иначе будет ошибка
источник

A

Archie in Scrapy
Илья
какой это модуль ?
источник

И

Илья in Scrapy
я понял про что ты, спасибо
источник

iz

izzz zzi in Scrapy
Archie
чтото типо этого
а если у тебя будет 2-5кк записей на выборке скорость не упадет?)
источник

И

Илья in Scrapy
вопрос, if exists_article is not None: != if exists_article:
источник