Size: a a a

2021 February 03

R

Rahat in Scrapy
Сейчас вопрос как получить список результатов.Я  нашел  XHR  ответ для получения отзывов для отдельного отеля.
источник

AR

Andrey Rahmatullin in Scrapy
а
источник

AR

Andrey Rahmatullin in Scrapy
на этой странице результаты в хтмл лежат
источник

SS

Stepan Smirnov in Scrapy
Alexey Lemeshevski
маленький оффтопик, но ... вчера ScrapingHub стал Zyte. Письмо в почту прислали. Странный ребрендинг ) ...какие-то прям изменения... Scrapy надеюсь не планируют из Open Source забирать ))
А у Zyte теперь основной продукт - это AutoExtract 2.0 с простой интеграцией ETL?
источник

S

SoHard 🎄 in Scrapy
Stepan Smirnov
А у Zyte теперь основной продукт - это AutoExtract 2.0 с простой интеграцией ETL?
а что это если вкратце?
источник

SS

Stepan Smirnov in Scrapy
SoHard 🎄
а что это если вкратце?
"Instantly access news or product data with our patented AI-powered automated extraction web scraping tool.

Give us the URLs. And get quality data right back with no coding."
источник

AR

Andrey Rahmatullin in Scrapy
апи с неонкой внутри
источник

AR

Andrey Rahmatullin in Scrapy
т.е. простите с нейронкой
источник

AR

Andrey Rahmatullin in Scrapy
на входе урл (и деньги), на выходе жсон
источник

AR

Andrey Rahmatullin in Scrapy
если очень вкратце
источник

i

i in Scrapy
походу по мотивам того  выступления 2018 года Коробова допилили и решили даже краешком не светить в опенсурс, вот где деньга-то зарыта, золотую жилу похоже нашли)
источник

i

i in Scrapy
(хотя наверняка все было не так)
источник

AR

Andrey Rahmatullin in Scrapy
(угу, нашли выступление и решили а давайте допилим)
источник

AR

Andrey Rahmatullin in Scrapy
что хоть за выступление-то
источник

i

i in Scrapy
Andrey Rahmatullin
(угу, нашли выступление и решили а давайте допилим)
не не, не нашли, а сами сделали, просто показали сначала краешком на опенсурс, а потом молчок
https://www.youtube.com/watch?v=l11caoD_MFc
источник

i

i in Scrapy
а краешек опенсурса это вот это: https://github.com/TeamHG-Memex/eli5
источник

i

i in Scrapy
но это уже теории заговора какие-то пошли от меня, не воспринимайте всерьез)
источник

AR

Andrey Rahmatullin in Scrapy
где заговора-то вообще, коммерческая компания
источник
2021 February 04

П

Пастырь in Scrapy
Ребят. Подскажите как правильно сделать. У меня есть база с урлами для паука, каждая запись имеет поля URL, status. Как правильно реализовать, чтобы паук из базы подтягивал, допустим, 100 записей, менял статус на running, а по завершению на complete?
Смотреть в сторону open_spider, close_spider?
источник

МС

Михаил Синегубов... in Scrapy
Пастырь
Ребят. Подскажите как правильно сделать. У меня есть база с урлами для паука, каждая запись имеет поля URL, status. Как правильно реализовать, чтобы паук из базы подтягивал, допустим, 100 записей, менял статус на running, а по завершению на complete?
Смотреть в сторону open_spider, close_spider?
для старта:
https://stackoverflow.com/questions/46339263/scrapy-get-start-urls-from-database-by-pipeline
https://stackoverflow.com/questions/38658491/scrapy-generate-url-from-database

в довесок скажу
1. надо скрестить оба метода. Тогда при 10 млн записях можно по 1000 ссылок дергать
2. статус меняешь в пайпе. Можно отдельными айтемом, можно тем же.

ну и, это все не истина последней инстанции. Но у меня такая связка (чуток проработанная) успешно работает на десятках млн записях и норм.
По хорошему, если у тебя сотни тысяч ссылок, то надо либо свой дупфильтр делать, либо отключать его нахрен, если он не актуален. Ибо нахрен все это хранить в мозгах
источник