спасибо)
Я пока что уперся в невозможность нормально отображать html страницы в шайни. есть htmlOutput , но он показывает инлайн html и может конфликтовать с библиотеками/стилями. а если это вырезать, то будет показываться неправильно.
Пока что костыльная идея в голове выглядит так:
1. к странице из
read_html(url)
нужно добавить небольшой яваскрипт, который подсвечивал бы все блоки и писал рядом с ними названия.
2. модифицированную страницу пихать в iframe. По идее все скрипты и стили из оригинальной страницы не должны ломаться.
3. Одновременно с этим из
html_structure()
собирается лист и чистится от мусора.
4. ShinyTree (
https://github.com/shinyTree/shinyTree) или какой-то другой виджет используется для отображения структуры страницы. Пользователь может глядеть в iframe названия нужных блоков и находить их в дереве.
5. в ShinyTree можно нажать нужный элемент в дереве (который передается в html_nodes) и предварительно посмотреть результаты парсинга (пока не совсем понял, как это сделать, наверное через реактивные значения как-то).
6. если результат норм, то после выбора ноды можно выбрать допольнительные атрибуты.
7. потом осталось придумать, как сделать drag n drop для ноды и атрибутов в таблицу. Я пока ничего лучше не придумал, как передать выбранных элементы ShinyTree в следующий виджет (sortable н-р)
8. когда это список будет готов, можно уже сгенерить код для rvest и посмотреть в таблице что получилось.