Size: a a a

2021 February 04

МС

Михаил Синегубов... in Scrapy
там внизу кнопочка "Add file", и можно сделать хоть 100500 этих блоков ;).
я про создание гиста
источник

AR

Andrey Rahmatullin in Scrapy
ага
источник

Z

Zack!? in Scrapy
Михаил Синегубов
для старта:
https://stackoverflow.com/questions/46339263/scrapy-get-start-urls-from-database-by-pipeline
https://stackoverflow.com/questions/38658491/scrapy-generate-url-from-database

в довесок скажу
1. надо скрестить оба метода. Тогда при 10 млн записях можно по 1000 ссылок дергать
2. статус меняешь в пайпе. Можно отдельными айтемом, можно тем же.

ну и, это все не истина последней инстанции. Но у меня такая связка (чуток проработанная) успешно работает на десятках млн записях и норм.
По хорошему, если у тебя сотни тысяч ссылок, то надо либо свой дупфильтр делать, либо отключать его нахрен, если он не актуален. Ибо нахрен все это хранить в мозгах
блин, спасибо. Искал как сделать доп скрапинг после полного выполнения основного, и наткнулся на:
https://stackoverflow.com/questions/46429331/how-to-perform-one-final-request-in-scrapy-after-all-requests-are-done

Долго не мог понять, в чём проблема)) а я спайдера в from_crawler не возвращал)))
п.с. как я понимаю лучше всё таки engine.crawl использовать, вместо engine.shedule, т.к. первый не только внутри второй вызывает
источник

i

i in Scrapy
Михаил Синегубов
хм, gist, вроде как, именно для кусков кода? без описания
в любом случае, спс. Я как то забыл про него :)
там можно и .md, и вообще они markup поддерживают
источник

МС

Михаил Синегубов... in Scrapy
угу, Андрей уже пнул в морду лица примером :)
источник

i

i in Scrapy
а, вы уже разобрались. о, а как они raw куски вставляют? типа через тройные странные кавычки или через отступы для кода небось?
источник

i

i in Scrapy
а, ну да
источник

i

i in Scrapy
ну или можно статью на medium написать, хотя не знаю как там с поддержкой кода, но люди вроде как-то справляются)
источник
2021 February 05

A

Andrii in Scrapy
можно где-то в настройках задать на запись в джейсон не добавлять а переписовать?
источник

AR

Andrey Rahmatullin in Scrapy
в джейсон нельзя добавлять.
источник

AR

Andrey Rahmatullin in Scrapy
в JSON lines можно, и настройки для добавления/переписывания в новых скрапи есть
источник

МС

Михаил Синегубов... in Scrapy
Andrey Rahmatullin
в джейсон нельзя добавлять.
имелось в виду "скрапи, собака, в конец дописывает по умолчанию"
источник

AR

Andrey Rahmatullin in Scrapy
а, ну блин, я до эдита читал
источник

AR

Andrey Rahmatullin in Scrapy
да, есть настройка
источник

BL

Boris Litvyakov in Scrapy
Andrii
можно где-то в настройках задать на запись в джейсон не добавлять а переписовать?
еще есть лайфхак, если ничо не путаю можно добавление/перезапись менять через регистр параметра:
-o file
-O file
источник

AR

Andrey Rahmatullin in Scrapy
New in version 2.4.0.

overwrite: whether to overwrite the file if it already exists (True) or append to its content (False).
источник

AR

Andrey Rahmatullin in Scrapy
это не лайфхак :)
источник

МС

Михаил Синегубов... in Scrapy
вах, шайтанама:
"For example, when using the crawl or runspider commands, you can use the -O option instead of -o to overwrite the output file"

самое смешное, что я это читал уже :))
источник

OS

Oleg Shleiko in Scrapy
Михаил Синегубов
вах, шайтанама:
"For example, when using the crawl or runspider commands, you can use the -O option instead of -o to overwrite the output file"

самое смешное, что я это читал уже :))
Значит мало страдал и забыл)) то что приносит много боли постоянно в голове 🤣
источник

МС

Михаил Синегубов... in Scrapy
Oleg Shleiko
Значит мало страдал и забыл)) то что приносит много боли постоянно в голове 🤣
не, просто в подкорке сидит, что он дописывает :), ну и, не часто надо именно переписывать
мне чаще надо новые файлы создавать для парсинга
источник