Size: a a a

2020 June 19

К

Кирилл in Scrapy
Elisei Badanin
немного не по теме, но посоветуйте какую-нибудь либу для геокодинга(есть один файл с полигонами и названиями, и второй с координатами, нужно найти какая координата в каком полигоне)
источник

Pu

Process user in Scrapy
Кирилл
Не нужен там сплэш
не улавливаю, почему.

В доке написанно

Some webpages show the desired data when you load them in a web browser. However, when you download them using Scrapy, you cannot reach the desired data using selectors.
When this happens, the recommended approach is to find the data source and extract the data from it.
If you fail to do that, and you can nonetheless access the desired data through the DOM from your web browser, see Pre-rendering JavaScript.

Далее https://docs.scrapy.org/en/latest/topics/dynamic-content.html#pre-rendering-javascript

Что собственно говоря вроде бы подходит под мою задачу
источник

EB

Elisei Badanin in Scrapy
спасибо
источник

EB

Elisei Badanin in Scrapy
а на питоне?
источник

К

Кирилл in Scrapy
Process user
не улавливаю, почему.

В доке написанно

Some webpages show the desired data when you load them in a web browser. However, when you download them using Scrapy, you cannot reach the desired data using selectors.
When this happens, the recommended approach is to find the data source and extract the data from it.
If you fail to do that, and you can nonetheless access the desired data through the DOM from your web browser, see Pre-rendering JavaScript.

Далее https://docs.scrapy.org/en/latest/topics/dynamic-content.html#pre-rendering-javascript

Что собственно говоря вроде бы подходит под мою задачу
Тебе нужна та часть что выше, с network и reproduce
источник

R

Roma in Scrapy
может и не в тему а GeoPandas - не оно ?
источник

EB

Elisei Badanin in Scrapy
если бы знал, то не спрашивал
источник

EB

Elisei Badanin in Scrapy
сейчас посмотрю
источник

К

Кирилл in Scrapy
Советую разобраться с postgis, оно тебе еще точно пригодится
источник

EB

Elisei Badanin in Scrapy
ну постгресе то с ним работал, довольно интерестная штука)
источник
2020 June 20

🎱

🎱 in Scrapy
есть вот такая таблица с thead и tbody , как ее правильно спарсить, с помощью xpath ? Есть какие нибудь подводные камни ?
хочу привести в такой вид
table_results = [
       '40003': {
                 'color': 'black',
                 'units/case': 12,
                 'case_weight': '1.3lbs',
                 'marker_tip': 'medium',
                 },
       '40001': {
                 'color': 'blue',
                 'units/case': 12,
                 'case_weight': '1.3lbs',
                 'marker_tip': 'medium',
                 },
     ....
     
     ]
источник

t

tfhx8 in Scrapy
Всем привет. По умолчанию как я понимаю scrapy парсит мультипоточно. А если открывать страницу через browser headless, оно также мультипоточно будет?
источник

AB

Alexander B in Scrapy
🎱
есть вот такая таблица с thead и tbody , как ее правильно спарсить, с помощью xpath ? Есть какие нибудь подводные камни ?
хочу привести в такой вид
table_results = [
       '40003': {
                 'color': 'black',
                 'units/case': 12,
                 'case_weight': '1.3lbs',
                 'marker_tip': 'medium',
                 },
       '40001': {
                 'color': 'blue',
                 'units/case': 12,
                 'case_weight': '1.3lbs',
                 'marker_tip': 'medium',
                 },
     ....
     
     ]
Ну забери хедеры в список, потом  итерируйся по tr и зиппуй хедеры со списками из tr) подводных камней нет))
источник

AB

Alexander B in Scrapy
tfhx8
Всем привет. По умолчанию как я понимаю scrapy парсит мультипоточно. А если открывать страницу через browser headless, оно также мультипоточно будет?
Ты типа хочешь подключить селениум? Если все правильно сделаешь,  то да
источник

t

tfhx8 in Scrapy
Alexander B
Ты типа хочешь подключить селениум? Если все правильно сделаешь,  то да
да, селениум. Просто есть сайты которые не дают парсить без js
источник

t

tfhx8 in Scrapy
но чет я нормального мануала не нашел именно чтобы scrapy + selenium + чтобы это все было многопоточно
источник

t

tfhx8 in Scrapy
и не понятно как оно будет мультипоточно парсить, тоесть вкладки будет открывать или несколько экземпляров процесса браузера?)
источник

AB

Alexander B in Scrapy
источник

AB

Alexander B in Scrapy
все что тебе надо
источник

t

tfhx8 in Scrapy
я так понимаю подобного как webdriver.Chrome(options=chrome_options) не нужно делать же?
источник