Size: a a a

2020 February 28

S

Snusmumriken in pro.lua
2. Взять родительскую ноду, в которой точно находятся оба тега. Развернув дерево, превратить её в список. Выдрать от h1 до h2.
источник

S

Snusmumriken in pro.lua
Это может что-то сломать, но содержимое между ними ты получишь.
источник

R

Roman in pro.lua
*сейчас в голове крутится 1001 костыль как это можно сделать, но в теории это должно сработать
источник

R

Roman in pro.lua
Snusmumriken
Это может что-то сломать, но содержимое между ними ты получишь.
Есть библиотеки, которое это поправят
источник

R

Roman in pro.lua
Кажется и правда лучшее решение.
Спасибо большое
источник

S

Snusmumriken in pro.lua
источник

R

Roman in pro.lua
Не ошиблись, когда вас посоветовали)
источник

f

fgntfg in pro.lua
Подозреваю что есть какие-нибудь штуки для работы с dom.
источник

VD

Vlad Doc in pro.lua
А копию нельзя сделать, чтобы не ломать ориг?
источник

S

Snusmumriken in pro.lua
Ну тут cheerio, но я не работал с ней. Как и с jq, хе.
источник

S

Snusmumriken in pro.lua
Да можно, можно сделать копию. Разворачивать дерево можно в отдельный "массив", а потом наковырять из него строчек.
источник

R

Roman in pro.lua
У меня задача получить короткое описание направлений с сайта универа. Парсинг, так что можно все ломать
источник

VD

Vlad Doc in pro.lua
Roman
У меня задача получить короткое описание направлений с сайта универа. Парсинг, так что можно все ломать
Тогда для парсинга вообще изи.
источник

R

Roman in pro.lua
fgntfg
Подозреваю что есть какие-нибудь штуки для работы с dom.
Много таких, но для такой задачи я не встречал решения
источник

S

Snusmumriken in pro.lua
Парсинг сайтов, по мне, значительно проще сделать обычными регулярными выражениями над текстовым представлением страницы.
источник

S

Snusmumriken in pro.lua
То есть, первый способ. Потом его можно ещё обработать и получить то что нужно.
источник

VD

Vlad Doc in pro.lua
Находишь </h1>  и <h2> и копипастишь всё между ними.
источник

S

Stunni in pro.lua
Snusmumriken
1. Если вся страничка в виде текста — регулярка типа
match("<h1>.*?<h2>")
Ну да, тут <h1> , а так как начинаем искать с конца, то должно быть </h1> :)
источник

f

fgntfg in pro.lua
Snusmumriken
Парсинг сайтов, по мне, значительно проще сделать обычными регулярными выражениями над текстовым представлением страницы.
Зависит от того, что нужно сделать. И как. Но да, html и если структура известная, то regexp отлично работают.
источник

S

Snusmumriken in pro.lua
Чот такое, прямое и дубовое
источник