Телеграмм чат группы ProLua страница 2612

Size: a a a

pro.lua

2020 February 28

2. Взять родительскую ноду, в которой точно находятся оба тега. Развернув дерево, превратить её в список. Выдрать от h1 до h2.

источник

15:51пожаловаться #1

Snusmumriken in pro.lua

Это может что-то сломать, но содержимое между ними ты получишь.

источник

15:52пожаловаться #2

Roman in pro.lua

*сейчас в голове крутится 1001 костыль как это можно сделать, но в теории это должно сработать

источник

15:53пожаловаться #3

Roman in pro.lua

Snusmumriken

Это может что-то сломать, но содержимое между ними ты получишь.

Есть библиотеки, которое это поправят

источник

15:53пожаловаться #4

Roman in pro.lua

Кажется и правда лучшее решение.
Спасибо большое

источник

15:53пожаловаться #5

Snusmumriken in pro.lua

Roman in pro.lua

Не ошиблись, когда вас посоветовали)

источник

15:53пожаловаться #7

fgntfg in pro.lua

Подозреваю что есть какие-нибудь штуки для работы с dom.

источник

15:53пожаловаться #8

Vlad Doc in pro.lua

А копию нельзя сделать, чтобы не ломать ориг?

источник

15:54пожаловаться #9

Snusmumriken in pro.lua

Ну тут cheerio, но я не работал с ней. Как и с jq, хе.

источник

15:54пожаловаться #10

Snusmumriken in pro.lua

Да можно, можно сделать копию. Разворачивать дерево можно в отдельный "массив", а потом наковырять из него строчек.

источник

15:54пожаловаться #11

Roman in pro.lua

У меня задача получить короткое описание направлений с сайта универа. Парсинг, так что можно все ломать

источник

15:55пожаловаться #12

Vlad Doc in pro.lua

Roman

У меня задача получить короткое описание направлений с сайта универа. Парсинг, так что можно все ломать

Тогда для парсинга вообще изи.

источник

15:55пожаловаться #13

Roman in pro.lua

fgntfg

Подозреваю что есть какие-нибудь штуки для работы с dom.

Много таких, но для такой задачи я не встречал решения

источник

15:55пожаловаться #14

Snusmumriken in pro.lua

Парсинг сайтов, по мне, значительно проще сделать обычными регулярными выражениями над текстовым представлением страницы.

источник

15:55пожаловаться #15

Snusmumriken in pro.lua

То есть, первый способ. Потом его можно ещё обработать и получить то что нужно.

источник

15:55пожаловаться #16

Vlad Doc in pro.lua

Находишь </h1> и <h2> и копипастишь всё между ними.

источник

15:56пожаловаться #17

Stunni in pro.lua

Snusmumriken

1. Если вся страничка в виде текста — регулярка типа
match("<h1>.*?<h2>")

Ну да, тут <h1> , а так как начинаем искать с конца, то должно быть </h1> :)

источник

15:57пожаловаться #18

fgntfg in pro.lua

Snusmumriken

Зависит от того, что нужно сделать. И как. Но да, html и если структура известная, то regexp отлично работают.

источник

15:57пожаловаться #19

Snusmumriken in pro.lua

image_2020-02-28_15-58-02.png

(104.88 Кб)

Чот такое, прямое и дубовое

источник

15:58пожаловаться #20