Телеграмм чат группы scrapy

маленький оффтопик, но ... вчера ScrapingHub стал Zyte. Письмо в почту прислали. Странный ребрендинг ) ...какие-то прям изменения... Scrapy надеюсь не планируют из Open Source забирать ))

А у Zyte теперь основной продукт - это AutoExtract 2.0 с простой интеграцией ETL?

источник

15:07пожаловаться #4

SoHard 🎄 in Scrapy

Stepan Smirnov

А у Zyte теперь основной продукт - это AutoExtract 2.0 с простой интеграцией ETL?

а что это если вкратце?

источник

15:08пожаловаться #5

Stepan Smirnov in Scrapy

SoHard 🎄

а что это если вкратце?

"Instantly access news or product data with our patented AI-powered automated extraction web scraping tool.

Give us the URLs. And get quality data right back with no coding."

источник

15:11пожаловаться #6

Andrey Rahmatullin in Scrapy

апи с неонкой внутри

источник

15:19пожаловаться #7

Andrey Rahmatullin in Scrapy

т.е. простите с нейронкой

источник

15:19пожаловаться #8

Andrey Rahmatullin in Scrapy

на входе урл (и деньги), на выходе жсон

источник

15:19пожаловаться #9

Andrey Rahmatullin in Scrapy

если очень вкратце

источник

15:19пожаловаться #10

i in Scrapy

походу по мотивам того выступления 2018 года Коробова допилили и решили даже краешком не светить в опенсурс, вот где деньга-то зарыта, золотую жилу похоже нашли)

источник

18:29пожаловаться #11

i in Scrapy

(хотя наверняка все было не так)

источник

18:29пожаловаться #12

Andrey Rahmatullin in Scrapy

(угу, нашли выступление и решили а давайте допилим)

источник

18:33пожаловаться #13

Andrey Rahmatullin in Scrapy

что хоть за выступление-то

источник

18:33пожаловаться #14

i in Scrapy

Andrey Rahmatullin

(угу, нашли выступление и решили а давайте допилим)

не не, не нашли, а сами сделали, просто показали сначала краешком на опенсурс, а потом молчок
https://www.youtube.com/watch?v=l11caoD_MFc

YouTube

Михаил Коробов, ScrapingHub «Машинное обучение для извлечения данных из веба»

Выступление на конферении PYCON RUSSIA 2018
http://pycon.ru/2018/

источник

19:37пожаловаться #15

i in Scrapy

а краешек опенсурса это вот это: https://github.com/TeamHG-Memex/eli5

GitHub

TeamHG-Memex/eli5

A library for debugging/inspecting machine learning classifiers and explaining their predictions - TeamHG-Memex/eli5

источник

19:45пожаловаться #16

i in Scrapy

но это уже теории заговора какие-то пошли от меня, не воспринимайте всерьез)

источник

19:45пожаловаться #17

Andrey Rahmatullin in Scrapy

где заговора-то вообще, коммерческая компания

источник

20:01пожаловаться #18

2021 February 04

Пастырь in Scrapy

Ребят. Подскажите как правильно сделать. У меня есть база с урлами для паука, каждая запись имеет поля URL, status. Как правильно реализовать, чтобы паук из базы подтягивал, допустим, 100 записей, менял статус на running, а по завершению на complete?
Смотреть в сторону open_spider, close_spider?

источник

08:33пожаловаться #19

МС

Михаил Синегубов... in Scrapy

Пастырь

для старта:
https://stackoverflow.com/questions/46339263/scrapy-get-start-urls-from-database-by-pipeline
https://stackoverflow.com/questions/38658491/scrapy-generate-url-from-database

в довесок скажу
1. надо скрестить оба метода. Тогда при 10 млн записях можно по 1000 ссылок дергать
2. статус меняешь в пайпе. Можно отдельными айтемом, можно тем же.

ну и, это все не истина последней инстанции. Но у меня такая связка (чуток проработанная) успешно работает на десятках млн записях и норм.
По хорошему, если у тебя сотни тысяч ссылок, то надо либо свой дупфильтр делать, либо отключать его нахрен, если он не актуален. Ибо нахрен все это хранить в мозгах

источник

09:23пожаловаться #20