Size: a a a

2021 January 22

i

i in Scrapy
еще хорошо по папкам разложить, а то там тормоза когда куча файлов в одной папке начинаются. я как-то так делаю:
источник

i

i in Scrapy
источник

К

Кирилл in Scrapy
А, ты хэш самого изображения делаешь, я думал про название
источник

К

Кирилл in Scrapy
Но наверное для публичного сайта такое не подойдет?
источник

i

i in Scrapy
почему нет, если надо хранить статику? Или ты о чем? Этот урл просто в базе к чему хочешь привязываешь. Я, например у себя его привязываю к списку файлов для объединения там всякого хитро-мудрого коллажирования и надписей на  картинках, из которых этот картинко-объект в итоге делается. В итоге, если такой список снова попадается (ну, он конечно же отсортирован и прогнан через set), я уже эти действия не делаю -  беру конечный результат из базы.
источник

i

i in Scrapy
иногда еще там рядом либа imagehash пробегает, очень удобная для сравнения почти одинаковых картинок.
источник

К

Кирилл in Scrapy
Я про то, что если к примеру два пользователя попытаются загрузить одинаковое изображение и ты оставишь только одно, то потом получается будет два владельца одного ресурса
источник

i

i in Scrapy
а, это. Ну да, тут уже надо чето другое иной раз мутить наверное, чтоб "никто не догадался", в духе того как ютуб именует видосы, делая это непоследовательно, чтобы их нельзя было перебрать простым перебором
источник

i

i in Scrapy
при условии, что эти ссылки публичные. с другой стороны - у тебя публичная ссылка, если она у другого пользователя одинаковая. То все что он может узнать, что такой же файл другой человек залил, а он ведь и так его опубликовал публично.
источник

К

Кирилл in Scrapy
Он может его удалить
источник

i

i in Scrapy
ну тогда в базе будут 2 ссылки. одну удалил - удалил одну ссылку на нее в базе.
источник

i

i in Scrapy
другая у другого пользователя осталась
источник

К

Кирилл in Scrapy
Главное чтоб сам файл остался) тогда норм
источник

i

i in Scrapy
но да, учитывать этот момент надо будет, что не владеет кто-нибудь другой еще
источник

К

Кирилл in Scrapy
Иначе в у кого-то в бд останется битый путь к файлу
источник

i

i in Scrapy
imagehash кстати как раз в том числе помогает против сайтостроителей, которые на каждое создание любого объекта генерят uuid от балды, в итоге у нас типа 2000 файлов с картинкой "нет изображения товара", и еще 1500 с перечеркнутым фотоаппаратом. Не знаю уж, как они их внутри хранят. Не удивлюсь, если там куча одинаковых картинок. По-итогу бросаешь 2-3 такие картинки в папку, потом читаешь список и imagehash'ем сравниваешь, не является ли эта картинка бесполезной.
источник

i

i in Scrapy
сравнение просто хэша не всегда помогает - толи они их каждый раз ножницами вырезают. толи там exif по-итогу еще меняется или какие-то другие метаданные через их процесс сохранения. я на одной штуке даже подумывал прикрутить тессеракт, чтобы он по-крайней мере отсеивал эти вариации надписей  "no image"
источник

i

i in Scrapy
можно еще поиграться на досуге с нейронкой на распознавание перечеркнутого фотоаппарата и прочих извращений)
источник

К

Кирилл in Scrapy
i
imagehash кстати как раз в том числе помогает против сайтостроителей, которые на каждое создание любого объекта генерят uuid от балды, в итоге у нас типа 2000 файлов с картинкой "нет изображения товара", и еще 1500 с перечеркнутым фотоаппаратом. Не знаю уж, как они их внутри хранят. Не удивлюсь, если там куча одинаковых картинок. По-итогу бросаешь 2-3 такие картинки в папку, потом читаешь список и imagehash'ем сравниваешь, не является ли эта картинка бесполезной.
Сам не сталкивался, но возьму на заметку👍
источник

A

Andrey 🐘 in Scrapy
Всем привет! Используем версию 2.3.0 и словили трояна kinsing. Поможет ли обновление до последней версии 2.4.1. Кто-нибудь слышал об этом?
источник