Size: a a a

2020 July 20

AR

Andrey Rahmatullin in Scrapy
tfhx8
а другой скрипт может эти данные обрабатывать и ложить в бд
на диск складывай.
источник

AR

Andrey Rahmatullin in Scrapy
штатными средствами
источник

t

tfhx8 in Scrapy
Кирилл
я то думал ты там хочешь супер распределенную систему, чтоб записи в бд и фильтрации ни на секунду не тормозили парсинг
не, простейший скрипт по сути нужен)
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
на диск складывай.
Можно и на диск, просто другим скриптом придется этот файл дрочить, чтобы данные в реалтайме брать. Поэтому и хотел сразу данные передать в скрипт, который обработает выдачу
источник

К

Кирилл in Scrapy
гуглишь IPC, там все варианты написаны
источник

t

tfhx8 in Scrapy
Кирилл
гуглишь IPC, там все варианты написаны
я так понимаю если использовать пайплайн, то можно забирать не сохраняя на диск?
источник

AR

Andrey Rahmatullin in Scrapy
пайплайн это просто кусок кода
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
пайплайн это просто кусок кода
тогда не понял что ты имел ввиду. Хотя по идеи обработку можно делать в самом спайдере
источник

AR

Andrey Rahmatullin in Scrapy
Andrey Rahmatullin
коллбэк - не место для выдачи данных наружу, это место - пайплайн
я имел в виду вот это.
источник

К

Кирилл in Scrapy
tfhx8
Можно и на диск, просто другим скриптом придется этот файл дрочить, чтобы данные в реалтайме брать. Поэтому и хотел сразу данные передать в скрипт, который обработает выдачу
Ты пытаешься сделать очередь или pub/sub. Но не понимаешь что ты хочешь сделать) возьми rabbitmq
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
коллбэк - не место для выдачи данных наружу, это место - пайплайн
тогда не совсем понял.Тоесть пайплан, тоесть кусок кода обработки по всей видимости лучше сделать внутри спайдера
источник

AR

Andrey Rahmatullin in Scrapy
начни с простого
источник

AR

Andrey Rahmatullin in Scrapy
пойми как обычные спайдеры выглядят
источник

t

tfhx8 in Scrapy
Кирилл
Ты пытаешься сделать очередь или pub/sub. Но не понимаешь что ты хочешь сделать) возьми rabbitmq
в общем внутри спайдера обработку сделаю, по идеи наврено, прчмо внутри если что и в бл можно сохранять, всмысле внутри спайдера
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
пойми как обычные спайдеры выглядят
я уже понял, мидлваре уже написал для селениума)), осталось или написать ротатор проксей для селениума или какой гтовый использовать
источник

t

tfhx8 in Scrapy
но по всей видимости на каждый запрос придется каждый раз запускать нывой экземпляр  браузера
источник

AR

Andrey Rahmatullin in Scrapy
судя по тупым вопросам про пайплайны - не целиком понял
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
судя по тупым вопросам про пайплайны - не целиком понял
с пайплайнами не имел еще дела. Ты наверно имел ввиду обрабатывать данные уже в коде item pipline?
источник

К

Кирилл in Scrapy
Суть пайплайнов в том чтоб обрабатывать данные которые собрал паук. Ты можешь это делать и в калбэках, но умные дяди уже сделали архитектуру, где каждая часть отвечает за определенную работу, чтоб всё было красиво
источник

t

tfhx8 in Scrapy
ок, понял, спс
источник