Size: a a a

R (язык программирования)

2021 March 16

AP

Aleksandr Pidtykan in R (язык программирования)
Байкулов Антон
Собственно вопрос был про "чем парсить динамический контент". Выяснили что RSelenium. Буду пробовать

А парсить мне нужно изображения из карточки товара. Ссылка выше, а css элемента "p-card-single-b-media-details-slider-item-image"
Ничего там динамического нет, обычная карусль, вытягиваете адреса картинок а потом иг грузите
источник

БА

Байкулов Антон... in R (язык программирования)
Ed P
а вы на страницу каждого товара хотите смотреть или на сайте есть какой-то каталог или там результат поиска?
Страница каждого товара.
источник

EP

Ed P in R (язык программирования)
какой-то хитрый кейс. вроде rvest способен саму страницу загрузить, но у меня не парсится. Если ручками в R попробовать то м.б. норм.
источник

БА

Байкулов Антон... in R (язык программирования)
Aleksandr Pidtykan
Ничего там динамического нет, обычная карусль, вытягиваете адреса картинок а потом иг грузите
library(rvest)

url <- read_html('https://santehnika-online.ru/product/mebel_dlya_vannoy_keuco_edition_300_oliva_65_sm/')

read <- html_nodes(url, '.p-card-single-b-media-details-slider-item-image')

Никак
источник

AP

Aleksandr Pidtykan in R (язык программирования)
Байкулов Антон
library(rvest)

url <- read_html('https://santehnika-online.ru/product/mebel_dlya_vannoy_keuco_edition_300_oliva_65_sm/')

read <- html_nodes(url, '.p-card-single-b-media-details-slider-item-image')

Никак
Я насколько помню это так и не прасится
источник

БА

Байкулов Антон... in R (язык программирования)
Ну с другого сайта по такой же схеме я получил содержимое тега
источник

AP

Aleksandr Pidtykan in R (язык программирования)
Вы просмотрите весь html, и там будет видно есть ли все адреса картинок
источник

AP

Aleksandr Pidtykan in R (язык программирования)
И вроде как надо только .p-card-single-b-media-details-slider
источник

EP

Ed P in R (язык программирования)
используйте Xpath //div[@class='p-card-single-b-media-details-slider']
источник

EP

Ed P in R (язык программирования)
а, и там нужно сначала выбрать боди, потому ноду
источник

БА

Байкулов Антон... in R (язык программирования)
Ed P
а, и там нужно сначала выбрать боди, потому ноду
А можно пример кодом?
источник

EP

Ed P in R (язык программирования)
поковырялся, там, кажется, и правда динамическая страница. тэги как таковые не ищутся. если посмотрите на свой url, то там яваскрипт
источник

AP

Aleksandr Pidtykan in R (язык программирования)
Ed P
поковырялся, там, кажется, и правда динамическая страница. тэги как таковые не ищутся. если посмотрите на свой url, то там яваскрипт
Вы url есть адреса всех картинок ?
источник

EP

Ed P in R (язык программирования)
Байкулов Антон
А можно пример кодом?
xml2::as_list(url)

в странице помимо хедера и боди прячется длиннющий яваскрипт. как таковых полезных html тэгов нет (
источник

БА

Байкулов Антон... in R (язык программирования)
Aleksandr Pidtykan
Вы url есть адреса всех картинок ?
Нет. Собственно для этого и нужен парсинг. Есть страницы, откуда надо взять адреса картинок. Взять из конкретного html тега
источник

БА

Байкулов Антон... in R (язык программирования)
Ed P
xml2::as_list(url)

в странице помимо хедера и боди прячется длиннющий яваскрипт. как таковых полезных html тэгов нет (
Rselenium значит. Либо поиск и парсинг всяких xml. Там обычно для рекламных систем такое выкладывают
источник

БА

Байкулов Антон... in R (язык программирования)
источник

AP

Aleksandr Pidtykan in R (язык программирования)
Байкулов Антон
Нет. Собственно для этого и нужен парсинг. Есть страницы, откуда надо взять адреса картинок. Взять из конкретного html тега
У меня нет времени чтобы сесть за пример.
Но надо сделать:
1) прочитать страницу и посмотреть есть ли там все адреса  (по идее она должна быть практически такая же как и в браузере) т.к. при каждой трасформации страницы ты можешь потерять данные.
2) Из пункта два будет понятно что дальше делать. Возможно придется grep по html тексту тянуть.
источник

ЮМ

Юта Мата Ссс... in R (язык программирования)
Байкулов Антон
Нет. Собственно для этого и нужен парсинг. Есть страницы, откуда надо взять адреса картинок. Взять из конкретного html тега
а что если с другой стороны пойти?
источник

ЮМ

Юта Мата Ссс... in R (язык программирования)
там же есть апишка
источник