Size: a a a

2021 January 22

AR

Andrey Rahmatullin in Scrapy
SoHard 🎄
Подскажите чем строку с кириллицей в валидное имя файла конвертировать
строка с кириллицей - уже валидное имя файла
источник

M

Maksim in Scrapy
Всем привет. Есть прямая ссылка на pdf. Как мне получить его текст ? Подскажите, пожалуйста.
источник

S

SoHard 🎄 in Scrapy
Maksim
Всем привет. Есть прямая ссылка на pdf. Как мне получить его текст ? Подскажите, пожалуйста.
скачать и отдать либе которая умеет читать пдф
источник

i

i in Scrapy
SoHard 🎄
Подскажите чем строку с кириллицей в валидное имя файла конвертировать
а чем тебе кириллица не валидная? просто надо с кодировкой не ошибиться.
источник

S

SoHard 🎄 in Scrapy
i
а чем тебе кириллица не валидная? просто надо с кодировкой не ошибиться.
да я думал может что есть что будет сразу резать спецсимволы и тд.
источник

i

i in Scrapy
а, ты про это. я такую штуку в джанго видел. своруй оттуда
источник

К

Кирилл in Scrapy
Да, лучше какой-то рандомный генератор взять
источник

S

SoHard 🎄 in Scrapy
Кирилл
Да, лучше какой-то рандомный генератор взять
да я уже уговорил id туда писать, один фиг никто не будет 100500 файлов вручную смотреть
источник

i

i in Scrapy
источник

i

i in Scrapy
slugify из джанги.
источник

i

i in Scrapy
а если тебе прям хочется новое имя создавать. лично я для себя хэширую. в последнее время через from blake3 import blake3
источник

i

i in Scrapy
из того, что читал - в нем коллизий меньше чем в каком-нибудь md5 и он тоже оптимизирован на быструю работу
источник

К

Кирилл in Scrapy
Но это всё равно хэш. Уж тогда лучше uuid
источник

К

Кирилл in Scrapy
Надо глянуть что там в джанго используется, там же тоже генератор есть для файлов, если уже существует имя файла
источник

A

Andrii in Scrapy
кто-то sourceforge.net парсил? У меня почему-то 500 еррор идет на некоторих страницах и ни в какую скрепи их не берет
источник

S

SoHard 🎄 in Scrapy
i
из того, что читал - в нем коллизий меньше чем в каком-нибудь md5 и он тоже оптимизирован на быструю работу
да есть айди уникальный и так, это была хотелка заказчика.
источник

i

i in Scrapy
Кирилл
Но это всё равно хэш. Уж тогда лучше uuid
ну можно сверху полирнуть еще датетаймом. А в чем проблема хэша, что надо калькулировать таки контент? Или ты про коллизии?
источник

i

i in Scrapy
но я не хочу  полировать - мне наоборот хорошо, что если прям такое же 1 в 1 содержимое, то диск не насилуется
источник

К

Кирилл in Scrapy
i
ну можно сверху полирнуть еще датетаймом. А в чем проблема хэша, что надо калькулировать таки контент? Или ты про коллизии?
я про добавление таймстэмпа
источник

К

Кирилл in Scrapy
ну так тоже норм
источник