Size: a a a

RU.UBUNTU — Официальное сообщество пользователей Ubuntu

2020 October 28

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
причём, изначальную задачу
источник

АА

Артём Афанасов... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Nikita DwINS 🐧[Perm]
ну почему же только страницы. wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"
html страницы — это в частности. Т.к. мне нужен только текст, а не файлы веб-страниц
источник

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
а не то, как ты придумал её решать
источник

ND

Nikita DwINS 🐧[Perm]... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Артём Афанасов
html страницы — это в частности. Т.к. мне нужен только текст, а не файлы веб-страниц
текст страницы?
источник

B

BraVo123 in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Vadim Misbakh-Soloviov
а не то, как ты придумал её решать
+
источник

M

M in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Чтобы парсить текст страницы надо сначала получить как-то эту страницу
источник

SG

Sergey Gureev in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Артём Афанасов
Доброго дня! Существует ли утилита для рекурсивного поиска текста на веб-страницах?
Как, например, wget, который рекурсивно может выкачивать все доки
Ты в курсе, что сегодня куча сайтов это не много html-страничек, а SPA или даже PWA?
источник

АА

Артём Афанасов... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Vadim Misbakh-Soloviov
причём, изначальную задачу
На сайте хочу найти все страницы, на которых присутствуют интересующие меня слова. Руками тыкаться долго. Хочется автомтизировать и хотя бы получить страницы, на которых уже можно серфить и читать инфу.
источник

M

M in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
если ты хочешь парсить интернет, тогда это новый гугл)
источник

M

M in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
поиск с site:website
источник

SG

Sergey Gureev in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Возьми список allowed страниц из robots.txt питоном и питоном же парси
Это самый простой способ определить, куда ходить можно, а куда не нужно
источник

SG

Sergey Gureev in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Либо воспользхуйся "поиском по сайту" ог гугла или яндекса, это согратит время мануального поиска
источник

АА

Артём Афанасов... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
M
Чтобы парсить текст страницы надо сначала получить как-то эту страницу
да придумать связки утилит можно.

Интересует существование команды ubuntu как самый простой вариант
источник

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
нет
источник

АА

Артём Афанасов... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
Sergey Gureev
Либо воспользхуйся "поиском по сайту" ог гугла или яндекса, это согратит время мануального поиска
ctrl + F?
Для этого нужно руками открывать все подстраницы
источник

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
была бы такая команда, провоторговцы уже давно засудили бы всех и вся
источник

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
и авторов и мейнтейнеров
источник

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
есть curl/wget, есть awk/lua/python
источник

VM

Vadim Misbakh-Solovi... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
кому надо - сам пишет парсеры
источник

АА

Артём Афанасов... in RU.UBUNTU — Официальное сообщество пользователей Ubuntu
окей )
источник