Size: a a a

2021 February 13

П

Пастырь in Scrapy
Вон вообще ласты заворачивает :D
источник

МС

Михаил Синегубов... in Scrapy
хм, по слухам он не быстрый, я бы попробовал Peewee, а еще лучше, на чистом SQL, если скорость важна
а индексы, надо мониторить что там алхимия генерит (какие SQL запросы) и дебажить из.

Кстати status='await' - индекс по строке, так себе идея. Заводи SmallInt, а то и Byteи их индексируй
источник

МС

Михаил Синегубов... in Scrapy
и запись не показал, там вообще какая то жопа, по ходу
источник

МС

Михаил Синегубов... in Scrapy
кстати
raise DontCloseCpider


вынеси из цикла, нафига тебе генерить кучу исключений
источник

К

Кирилл in Scrapy
Михаил Синегубов
хм, по слухам он не быстрый, я бы попробовал Peewee, а еще лучше, на чистом SQL, если скорость важна
а индексы, надо мониторить что там алхимия генерит (какие SQL запросы) и дебажить из.

Кстати status='await' - индекс по строке, так себе идея. Заводи SmallInt, а то и Byteи их индексируй
Пиви в асинхроне неочень
источник

МС

Михаил Синегубов... in Scrapy
Кирилл
Пиви в асинхроне неочень
ну, иногда и асинхрон нафиг не нужен...
источник

МС

Михаил Синегубов... in Scrapy
опять же, меня никто не убедит, что на десятках млн записях ORM будет шустрее натива :)
источник

К

Кирилл in Scrapy
Если долго работать с ОРМ и знать все её повадки и как оно что генерит, то норм будет, конечно не для супер нагруженных приложений, но для обычных задач точно. А так, да нужно проверять какие запросы оно там генерит
источник

МС

Михаил Синегубов... in Scrapy
а, ну и индексы. Удавалось "отладить" чистый SQL с 10-15 секунд до 0,1-0,5 секунд.
"всего то" перепутанный порядок индекса + одно поле "забыли" добавить 😁

upd: и это время выполнения единичного запроса
источник

П

Пастырь in Scrapy
Михаил Синегубов
кстати
raise DontCloseCpider


вынеси из цикла, нафига тебе генерить кучу исключений
Разобрался вроде. Проблема была в этом. Ну и прокси медленный попался. Ну и индекс на статусе не стоял, плюс сделал SmallInteger, вроде гоняет. Спасибо!
источник

МС

Михаил Синегубов... in Scrapy
Пастырь
Разобрался вроде. Проблема была в этом. Ну и прокси медленный попался. Ну и индекс на статусе не стоял, плюс сделал SmallInteger, вроде гоняет. Спасибо!
сейчас какая скорость?
источник

П

Пастырь in Scrapy
1200 страниц в минуту
источник

П

Пастырь in Scrapy
источник

МС

Михаил Синегубов... in Scrapy
вполне норм. В принципе, хотелось бы больше... но и прирост в 20 раз - ниче так 😂
источник

П

Пастырь in Scrapy
Я сейчас на сервер закину его. Там думаю быстрее будет
источник

МС

Михаил Синегубов... in Scrapy
кстати, пиво на таблице в сотни тыс записей спокойно делает "insert replace" со скоростью до ~3-14 тыс в минуту.
не скажу, что это меня устраивает, но всеж
хз, почему такой разброс - там проект подвисший, лениво разбираться :)
источник

V

Victor in Scrapy
Все привет. По фрилансу тут можно спрашивать!? Мне нужно с сайта спарсить инфу. Кто может помочь написать скрапер?
источник

К

Кирилл in Scrapy
Victor
Все привет. По фрилансу тут можно спрашивать!? Мне нужно с сайта спарсить инфу. Кто может помочь написать скрапер?
источник

V

Victor in Scrapy
спс
источник
2021 February 14

АМ

Антон Магурский... in Scrapy
комрады, приветствую! подскажите, я что глюк в селёниуме нашёл? вот простой файлик, с 4 тестами на клик двух кнопок. первый элемент в начале страницы находится, второй - похожий на него, чуть пониже. однако, через селениум кликается только 1 из четырёх, или иногда 2 из четырёх. есть ещё такой глюк - если менять местами xpath и css_selector, только первый срабатывает.
тесты запускал на линухе через pytest
https://pastebin.com/z09Z4gZj
источник