Size: a a a

2020 April 21

R

Roma in Scrapy
там вроде и table object есть
источник

S

Sergey in Scrapy
Roma
а python-docx  пробовали ?
Он doc не берет, как я понял, ему docx нужны
источник

i

ildar in Scrapy
какой там пастебин есть, ща я в тебя кодом брошу, по-крайней мере он работал и пересохранял из doc в docx
источник

i

ildar in Scrapy
вот:
источник

i

ildar in Scrapy
а нет, не вот, щас надо вырезать чуток там текста)
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
он в текущей итерации ресейвит в эту же папку, ну эт можешь поменять)
источник

i

ildar in Scrapy
там по-идее должен был в будущем еще быть код чтобы конвертило под линухом, но тогда я не нашел да и не понадобилось, так-что забили)
источник

S

Sergey in Scrapy
да хотелось без сохранения, там 1000 файлов и все на url, с которого парсю данные. docx понимаю как разобрать, а вот с doc пока засада
источник

S

Sergey in Scrapy
Спасибо, посмотрю, может какая мысль прийдет.
источник

i

ildar in Scrapy
ну у нас тоже пара тыщ файлов была) но в архивах
источник

i

ildar in Scrapy
а тем временем идут года, ничо не меняется, делаю conda install -c conda-forge scrapy
источник

i

ildar in Scrapy
на выходе получаю Fatal error in launcher: Unable to create process using '"d:\bld\scrapy_1584555997548\_h_env\python.exe"  "C:\Users\i\miniconda3\envs\yu\Scripts\scrapy.exe" ': ?? ??????? ????? ?????????
????.
источник

i

ildar in Scrapy
классика жанра))
источник

S

Sergey in Scrapy
когда уже сделают API к zakupki.gov.ru 😡
источник

i

ildar in Scrapy
ну скачивать и тут же скармливать файл конвертилке тебе ничего не мешает)
источник

i

ildar in Scrapy
а при этом  pip install scrapy отрабатывает как часы. мде. а ведь анакондовцы плачут в доках конды
источник

R

Roma in Scrapy
Sergey
когда уже сделают API к zakupki.gov.ru 😡
а у них FTP нету разве?
источник

i

ildar in Scrapy
"позязя позязя, ставьте максимальное количество пакетов через конду, помушо вам же будет лучше". да и пичарму меньше индексировать
источник

S

Sergey in Scrapy
ildar
ну скачивать и тут же скармливать файл конвертилке тебе ничего не мешает)
не хотел тратить время на операции с файлами. там итак гемор, часть документов в doc, часть в docx, часть вообще в pdf
источник