Телеграмм чат группы scrapy_python страница 1673

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

503 membersпожаловаться на группу

2020 June 19

К

Кирилл in Scrapy

немного не по теме, но посоветуйте какую-нибудь либу для геокодинга(есть один файл с полигонами и названиями, и второй с координатами, нужно найти какая координата в каком полигоне)

https://postgis.net/docs/ST_Contains.html

источник

23:16пожаловаться #1

Pu

Process user in Scrapy

Не нужен там сплэш

не улавливаю, почему.

В доке написанно

Some webpages show the desired data when you load them in a web browser. However, when you download them using Scrapy, you cannot reach the desired data using selectors.
When this happens, the recommended approach is to find the data source and extract the data from it.
If you fail to do that, and you can nonetheless access the desired data through the DOM from your web browser, see Pre-rendering JavaScript.

Далее https://docs.scrapy.org/en/latest/topics/dynamic-content.html#pre-rendering-javascript

Что собственно говоря вроде бы подходит под мою задачу

источник

23:17пожаловаться #2

EB

Elisei Badanin in Scrapy

https://postgis.net/docs/ST_Contains.html

спасибо

источник

23:17пожаловаться #3

EB

Elisei Badanin in Scrapy

а на питоне?

источник

23:17пожаловаться #4

К

Кирилл in Scrapy

не улавливаю, почему.

В доке написанно

Some webpages show the desired data when you load them in a web browser. However, when you download them using Scrapy, you cannot reach the desired data using selectors.
When this happens, the recommended approach is to find the data source and extract the data from it.
If you fail to do that, and you can nonetheless access the desired data through the DOM from your web browser, see Pre-rendering JavaScript.

Далее https://docs.scrapy.org/en/latest/topics/dynamic-content.html#pre-rendering-javascript

Что собственно говоря вроде бы подходит под мою задачу

Тебе нужна та часть что выше, с network и reproduce

источник

23:18пожаловаться #5

R

может и не в тему а GeoPandas - не оно ?

источник

23:18пожаловаться #6

EB

Elisei Badanin in Scrapy

если бы знал, то не спрашивал

источник

23:19пожаловаться #7

EB

Elisei Badanin in Scrapy

сейчас посмотрю

источник

23:19пожаловаться #8

К

Кирилл in Scrapy

Советую разобраться с postgis, оно тебе еще точно пригодится

источник

23:20пожаловаться #9

EB

Elisei Badanin in Scrapy

ну постгресе то с ним работал, довольно интерестная штука)

источник

23:21пожаловаться #10

2020 June 20

🎱

есть вот такая таблица с thead и tbody , как ее правильно спарсить, с помощью xpath ? Есть какие нибудь подводные камни ?
хочу привести в такой вид

table_results = [
        '40003': {
                  'color': 'black',
                  'units/case': 12,
                  'case_weight': '1.3lbs',
                  'marker_tip': 'medium',
                  },
        '40001': {
                  'color': 'blue',
                  'units/case': 12,
                  'case_weight': '1.3lbs',
                  'marker_tip': 'medium',
                  },
      ....
      
      ]

источник

00:39пожаловаться #11

t

tfhx8 in Scrapy

Всем привет. По умолчанию как я понимаю scrapy парсит мультипоточно. А если открывать страницу через browser headless, оно также мультипоточно будет?

источник

01:39пожаловаться #12

AB

Alexander B in Scrapy

есть вот такая таблица с thead и tbody , как ее правильно спарсить, с помощью xpath ? Есть какие нибудь подводные камни ?
хочу привести в такой вид

table_results = [
        '40003': {
                  'color': 'black',
                  'units/case': 12,
                  'case_weight': '1.3lbs',
                  'marker_tip': 'medium',
                  },
        '40001': {
                  'color': 'blue',
                  'units/case': 12,
                  'case_weight': '1.3lbs',
                  'marker_tip': 'medium',
                  },
      ....
      
      ]

Ну забери хедеры в список, потом итерируйся по tr и зиппуй хедеры со списками из tr) подводных камней нет))

источник

01:39пожаловаться #13

AB

Alexander B in Scrapy

Всем привет. По умолчанию как я понимаю scrapy парсит мультипоточно. А если открывать страницу через browser headless, оно также мультипоточно будет?

Ты типа хочешь подключить селениум? Если все правильно сделаешь, то да

источник

01:41пожаловаться #14

t

tfhx8 in Scrapy

Ты типа хочешь подключить селениум? Если все правильно сделаешь, то да

да, селениум. Просто есть сайты которые не дают парсить без js

источник

01:42пожаловаться #15

t

tfhx8 in Scrapy

но чет я нормального мануала не нашел именно чтобы scrapy + selenium + чтобы это все было многопоточно

источник

01:42пожаловаться #16

t

tfhx8 in Scrapy

и не понятно как оно будет мультипоточно парсить, тоесть вкладки будет открывать или несколько экземпляров процесса браузера?)

источник

01:43пожаловаться #17

AB

Alexander B in Scrapy

https://github.com/clemfromspace/scrapy-selenium

clemfromspace/scrapy-selenium

Scrapy middleware to handle javascript pages using selenium - clemfromspace/scrapy-selenium

источник

01:43пожаловаться #18

AB

Alexander B in Scrapy

все что тебе надо

источник

01:43пожаловаться #19

t

tfhx8 in Scrapy

я так понимаю подобного как webdriver.Chrome(options=chrome_options) не нужно делать же?

источник

01:53пожаловаться #20