Size: a a a

2021 February 06

A

Andrii in Scrapy
Я еще парсер не написал)
источник

i

i in Scrapy
Alex Python
Хреново, а как вы сами то учились?)
туториал на оффсайте скрапи сделал свою работу.
источник

AP

Alex Python in Scrapy
:)
источник

V

Victor in Scrapy
Народ, такой вопрос - долго обрабатывается html дерево. Если просто парсить страничку и сохранять, а потом после парсинга его обрабатывать, то это раз в 5-10 быстрее чем обрабатывать во время парснга.
источник

V

Victor in Scrapy
В чем может быть проблема?
источник

V

Victor in Scrapy
Какие библиотеки для парсинга html и обработки самые быстрые сейчас на питонии?
источник

AR

Andrey Rahmatullin in Scrapy
Victor
Народ, такой вопрос - долго обрабатывается html дерево. Если просто парсить страничку и сохранять, а потом после парсинга его обрабатывать, то это раз в 5-10 быстрее чем обрабатывать во время парснга.
Что такое обрабатывать?
источник

V

Victor in Scrapy
взять страничку, вырезать оттуда половину и сохранить итог в БД
источник

AR

Andrey Rahmatullin in Scrapy
Victor
Какие библиотеки для парсинга html и обработки самые быстрые сейчас на питонии?
html5lib какой-нибудь, толку только
источник

AR

Andrey Rahmatullin in Scrapy
Victor
взять страничку, вырезать оттуда половину и сохранить итог в БД
Брр
источник

V

Victor in Scrapy
да норм )
источник

AR

Andrey Rahmatullin in Scrapy
Victor
Народ, такой вопрос - долго обрабатывается html дерево. Если просто парсить страничку и сохранять, а потом после парсинга его обрабатывать, то это раз в 5-10 быстрее чем обрабатывать во время парснга.
Я просто не понимаю оба эти варианта
источник

S

SoHard 🎄 in Scrapy
Victor
Какие библиотеки для парсинга html и обработки самые быстрые сейчас на питонии?
если это реально (я же не знаю что тебе надо) регуляркой попробуй)
источник

i

i in Scrapy
Victor
Народ, такой вопрос - долго обрабатывается html дерево. Если просто парсить страничку и сохранять, а потом после парсинга его обрабатывать, то это раз в 5-10 быстрее чем обрабатывать во время парснга.
а чем ты это делаешь сейчас? условно requests+bs4 или requests+регулярка или чем?
источник

V

Victor in Scrapy
scrapy + bs4 -> sqlite медленнее чем scrapy -> sqlite -> bs4 -> sqlite
источник

V

Victor in Scrapy
🙈
источник

К

Кирилл in Scrapy
Шта?
источник

V

Victor in Scrapy
С помощью скрапи обхожу сайт, сохраняют странички в БД. Потом обрабатывают другим скриптом эти странички. И это быстрее намного чем на лету их обрабатывать и потом сохранять.
источник

К

Кирилл in Scrapy
Ты чем-то не тем занимаешься) bs4 тут лишним выглядит
источник

V

Victor in Scrapy
Ну а чем html дерево парсить - удалить скрипты, айфреймы, счетчики и некоторые тэги? Не регулярками же
источник