Телеграмм чат группы scrapy

почему нет, если надо хранить статику? Или ты о чем? Этот урл просто в базе к чему хочешь привязываешь. Я, например у себя его привязываю к списку файлов для объединения там всякого хитро-мудрого коллажирования и надписей на картинках, из которых этот картинко-объект в итоге делается. В итоге, если такой список снова попадается (ну, он конечно же отсортирован и прогнан через set), я уже эти действия не делаю - беру конечный результат из базы.

источник

22:06пожаловаться #5

i

i in Scrapy

иногда еще там рядом либа imagehash пробегает, очень удобная для сравнения почти одинаковых картинок.

источник

22:06пожаловаться #6

К

Кирилл in Scrapy

Я про то, что если к примеру два пользователя попытаются загрузить одинаковое изображение и ты оставишь только одно, то потом получается будет два владельца одного ресурса

источник

22:07пожаловаться #7

i

i in Scrapy

а, это. Ну да, тут уже надо чето другое иной раз мутить наверное, чтоб "никто не догадался", в духе того как ютуб именует видосы, делая это непоследовательно, чтобы их нельзя было перебрать простым перебором

источник

22:08пожаловаться #8

i

i in Scrapy

при условии, что эти ссылки публичные. с другой стороны - у тебя публичная ссылка, если она у другого пользователя одинаковая. То все что он может узнать, что такой же файл другой человек залил, а он ведь и так его опубликовал публично.

К

Он может его удалить

22:10пожаловаться #10

i

i in Scrapy

ну тогда в базе будут 2 ссылки. одну удалил - удалил одну ссылку на нее в базе.

источник

22:10пожаловаться #11

i

i in Scrapy

другая у другого пользователя осталась

источник

22:11пожаловаться #12

К

Кирилл in Scrapy

Главное чтоб сам файл остался) тогда норм

источник

22:11пожаловаться #13

i

i in Scrapy

но да, учитывать этот момент надо будет, что не владеет кто-нибудь другой еще

источник

22:11пожаловаться #14

К

Кирилл in Scrapy

Иначе в у кого-то в бд останется битый путь к файлу

источник

22:11пожаловаться #15

i

i in Scrapy

imagehash кстати как раз в том числе помогает против сайтостроителей, которые на каждое создание любого объекта генерят uuid от балды, в итоге у нас типа 2000 файлов с картинкой "нет изображения товара", и еще 1500 с перечеркнутым фотоаппаратом. Не знаю уж, как они их внутри хранят. Не удивлюсь, если там куча одинаковых картинок. По-итогу бросаешь 2-3 такие картинки в папку, потом читаешь список и imagehash'ем сравниваешь, не является ли эта картинка бесполезной.

источник

22:16пожаловаться #16

i

i in Scrapy

сравнение просто хэша не всегда помогает - толи они их каждый раз ножницами вырезают. толи там exif по-итогу еще меняется или какие-то другие метаданные через их процесс сохранения. я на одной штуке даже подумывал прикрутить тессеракт, чтобы он по-крайней мере отсеивал эти вариации надписей "no image"

источник

22:23пожаловаться #17

i

i in Scrapy

можно еще поиграться на досуге с нейронкой на распознавание перечеркнутого фотоаппарата и прочих извращений)

источник

22:25пожаловаться #18

К

Кирилл in Scrapy

i

imagehash кстати как раз в том числе помогает против сайтостроителей, которые на каждое создание любого объекта генерят uuid от балды, в итоге у нас типа 2000 файлов с картинкой "нет изображения товара", и еще 1500 с перечеркнутым фотоаппаратом. Не знаю уж, как они их внутри хранят. Не удивлюсь, если там куча одинаковых картинок. По-итогу бросаешь 2-3 такие картинки в папку, потом читаешь список и imagehash'ем сравниваешь, не является ли эта картинка бесполезной.

Сам не сталкивался, но возьму на заметку👍

источник

22:25пожаловаться #19

A

Andrey 🐘 in Scrapy

Всем привет! Используем версию 2.3.0 и словили трояна kinsing. Поможет ли обновление до последней версии 2.4.1. Кто-нибудь слышал об этом?

источник

22:57пожаловаться #20