Size: a a a

2021 January 13

G

Georgiy in Scrapy
Михаил
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\robotstxt.py", line 116, in init
   from protego import Protego
builtins.ModuleNotFoundError: No module named 'protego'

2021-01-14 20:36:46 [twisted] CRITICAL:
Traceback (most recent call last):
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
   result = g.send(result)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\crawler.py", line 87, in crawl
   self.engine = self._create_engine()
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\crawler.py", line 101, in _create_engine
   return ExecutionEngine(self, lambda _: self.stop())
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\core\engine.py", line 69, in init
   self.downloader = downloader_cls(crawler)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\core\downloader\__init__.py", line 83, in init
   self.middleware = DownloaderMiddlewareManager.from_crawler(crawler)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler
   return cls.from_settings(crawler.settings, crawler)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\middleware.py", line 35, in from_settings
   mw = create_instance(mwcls, settings, crawler)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\utils\misc.py", line 167, in create_instance
   instance = objcls.from_crawler(crawler, *args, **kwargs)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\downloadermiddlewares\robotstxt.py", line 36, in from_crawler
   return cls(crawler)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\downloadermiddlewares\robotstxt.py", line 32, in init
   self._parserimpl.from_crawler(self.crawler, b'')
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\robotstxt.py", line 124, in from_crawler
   o = cls(robotstxt_body, spider)
 File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\robotstxt.py", line 116, in init
   from protego import Protego
ModuleNotFoundError: No module named 'protego'
Наличие этой строки в логе:
\downloadermiddlewares\robotstxt.py", line 32, in init
   self._parserimpl.from_crawler(self.crawler, b'')
Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.
источник

М

Михаил in Scrapy
Georgiy
Наличие этой строки в логе:
\downloadermiddlewares\robotstxt.py", line 32, in init
   self._parserimpl.from_crawler(self.crawler, b'')
Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.
Спасибо сейчас буду пробывать.
источник
2021 January 14

М

Михаил in Scrapy
Georgiy
Наличие этой строки в логе:
\downloadermiddlewares\robotstxt.py", line 32, in init
   self._parserimpl.from_crawler(self.crawler, b'')
Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.
СПАСИБО БОЛЬШОЕ!!!! ВАШ ОТВЕТ РЕШИЛ МОЮ ПРОБЛЕМУ)) аж легче стало😉, завтра будем дальше штудировать  scrapy так как django мне почему то  не зашел.
источник

КО

Костя Остапенко... in Scrapy
Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение
источник

AR

Andrey Rahmatullin in Scrapy
Ух
источник

МС

Михаил Синегубов... in Scrapy
Костя Остапенко
Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение
"Оставь надежду всяк сюда входящий".
Не думаю, что питон в стоке осилит. Скорее всего, надо писать свой парсер с втягиванием всего этого в базу.
И да, сделать такой json, так себе идейка. Он же обрабатывается парсером весь сразу. Это что то Json Lines (или как он там пишется) надо было
источник

AR

Andrey Rahmatullin in Scrapy
Да, писать что-то поточное а-ля SAX
источник

AR

Andrey Rahmatullin in Scrapy
Может даже готовое есть
источник

AR

Andrey Rahmatullin in Scrapy
Но и то, смотря что потом с этими данными делать надо
источник

B

Bulatbulat48 in Scrapy
Georgiy
Наличие этой строки в логе:
\downloadermiddlewares\robotstxt.py", line 32, in init
   self._parserimpl.from_crawler(self.crawler, b'')
Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.
👍👍
источник

A

Andrii in Scrapy
Костя Остапенко
Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение
Dadroit Viewer, может потянет. Или тебе в питоне?
источник

МС

Михаил Синегубов... in Scrapy
кстати, да. Под винду есть достойные решения для работы с JSON, а вот под линукса, пока, не нашел...
HugeJsonViewer еще под винду есть, но, судя по переводчику:
"Вдохновленный вопросом о рекомендациях по программному обеспечению, я написал эту программу просмотра для очень больших файлов JSON. Он может открывать файлы размером 1,4 ГБ или даже больше, если у вас в ~ 7 раз больше оперативной памяти на вашем компьютере." не думаю что и он потянет :)
источник

К

Кирилл in Scrapy
Наверное легче самому парсер накидать, чтоб посимвольно читал из файла. Точнее не парсер, а сплитер, чтоб разбить файл не нарушая структуру json, а дальше уже обычными парсерами, когда размер будет вменяемый
источник

i

i in Scrapy
Костя Остапенко
Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение
если не взлетит с Edit: Also worth a look - kashif's comment about json-streamer and Henrik Heino's comment about bigjson.
как указано тута: https://stackoverflow.com/questions/10382253/reading-rather-large-json-files-in-python
источник

i

i in Scrapy
то лучше написать нормально чтобы стока гигов одним джсоном не кидалось.или хотя бы построчно делалось. у scrapy даже вроде решение изкоробки есть на это дело.
источник

К

Кирилл in Scrapy
i
то лучше написать нормально чтобы стока гигов одним джсоном не кидалось.или хотя бы построчно делалось. у scrapy даже вроде решение изкоробки есть на это дело.
Ну да, там скорее всего в одну строчку и напихано, чтоб сократить размер 😆
источник

КО

Костя Остапенко... in Scrapy
Костя Остапенко
Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение
решил проблему все же через ijson
очень легко в две строчки  
import ijson
import csv

def parse_json(json_filename):
   with open(json_filename, 'rb') as input_file:
       # load json iteratively
       parser = ijson.items(input_file, '', multiple_values=True)
       cont = 0
       for value in parser:
           data = dict()
           data['id'] = value['_id']['$oid']
           data['zip'] = value['zip']
           data['visit_date'] = value['visit_date']['$date'] .......
источник

D

Dmitry in Scrapy
Всем привет. кто-нибудь сталкивался в openpyxl с копированием merged cells между таблицами?
нужно скопировать диапазон ячеек с одного workbook в другой. проблема в том, что объединения ячеек не копируются. более менее простого решения пока не нашел.
источник

МС

Михаил Синегубов... in Scrapy
а должно? по идее, это "руками" надо делать. Определить что с чем смержено и сделать так же
источник

D

Dmitry in Scrapy
Михаил Синегубов
а должно? по идее, это "руками" надо делать. Определить что с чем смержено и сделать так же
думал, что как-то внутри это должно быть реализовано или кто-то реализовал уже, но гугл не помог. остается только "руками"
источник