Телеграмм чат группы scrapy

Ну, с этим просто, тут зависит от того где у тебя объявление чего-то и где создаёться новый процесс, если объявление до разделения процесса, и эта переменная шэрэд памяти, тогда у обоих процессов будет к ней доступ. А если такую переменную создавать после разделения процессов, тогда она будет для каждого процесса своя.
Думай о форке процесса, как о создании полной копии текущего процесса, в момент создания это полностью идентичные копии, а дальше они расходятся.

Если бы у тебя были треды, а не процессы, тогда оно бы работало примерно так же, только было бы достаточно простой глобальной переменной которая была бы в куче, а так как процессы полностью изолированы друг от друга, то им нужны общие области памяти, или другие методы коммуникации, чтоб они видели что-то общее.

А новый процесс получается создается когда with multiprocessing.Pool(4) as pool: ?

источник

22:15пожаловаться #7

i in Scrapy

*верней процессы эти пуляторские

источник

22:16пожаловаться #8

Кирилл in Scrapy

создание процесса занимает где-то в 10 раз больше времени, чем создание треда. А асик и того быстрее, так как там просто код в одном процессе и в главном треде

источник

22:16пожаловаться #9

Кирилл in Scrapy

А новый процесс получается создается когда with multiprocessing.Pool(4) as pool: ?

Точно не скажу, так как не знаю, но или тут или на следующей строчке где у тебя передаётся функция которая будет вызвана в процессе

источник

22:17пожаловаться #10

Кирилл in Scrapy

Смотрю сейчас код пула, там оно вообще создаёт новый тред, который создаёт процессы

источник

22:21пожаловаться #11

Кирилл in Scrapy

Если хочешь, могу скинуть топовую книгу по линуксу, там всё это есть

источник

22:23пожаловаться #12

i in Scrapy

давай!

источник

23:49пожаловаться #13

2021 January 31

Arkady B in Scrapy

Подскажите - есть у меня реквестовая sess = requests.Session(), к ней потом добавляются заголовки, кукисы и прочее, как бы ее пошарить в пул multiprocessing, так, чтобы она передавалась с одинаковыми кукисами в функцию, по которой пробегает map, ну или шарилась между всеми запросами?
1. Я не очень понял - сессию создавать надо до или после строчки if __name__ == "__main__": - я пока создаю ее после, потом создаю уже with pool и пробегаюсь стармапом по пулу, если я ее создаю до - то все действия почему-то как-то непонятно повторяться начинают.
2. Можно ли сделать так (см. sess как третий аргумент для стармапа):

import itertools
with multiprocessing.Pool(4) as pool:
    cur_data = pool.starmap(get_cur_data, zip(repeat(same_arg), inside_links, repeat(sess)))

ну и внутри get_cur_data

r = sess.get(inside_link, verify=verify)
return r.text

2.

https://github.com/requests/requests/issues/2766

Лучше в каждом треде/ процессе свою сессию держать. Но тебе правильно говорят, что надо брать async и делать по нормальному.

GitHub

Document threading contract for Session class · Issue #2766 · psf/requests

Right now, it's quite difficult to figure out if the Session class is threadsafe or not. The docs don't say, apart from a "thread-safe" bullet on the home page. Go...

источник

01:13пожаловаться #14

Кирилл in Scrapy