Телеграмм чат группы scrapy_python страница 2339

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

793 membersпожаловаться на группу

2021 January 13

G

Georgiy in Scrapy

Михаил

File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\robotstxt.py", line 116, in init
from protego import Protego
builtins.ModuleNotFoundError: No module named 'protego'

2021-01-14 20:36:46 [twisted] CRITICAL:
Traceback (most recent call last):
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
result = g.send(result)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\crawler.py", line 87, in crawl
self.engine = self._create_engine()
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\crawler.py", line 101, in _create_engine
return ExecutionEngine(self, lambda _: self.stop())
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\core\engine.py", line 69, in init
self.downloader = downloader_cls(crawler)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\core\downloader\__init__.py", line 83, in init
self.middleware = DownloaderMiddlewareManager.from_crawler(crawler)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler
return cls.from_settings(crawler.settings, crawler)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\middleware.py", line 35, in from_settings
mw = create_instance(mwcls, settings, crawler)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\utils\misc.py", line 167, in create_instance
instance = objcls.from_crawler(crawler, *args, **kwargs)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\downloadermiddlewares\robotstxt.py", line 36, in from_crawler
return cls(crawler)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\downloadermiddlewares\robotstxt.py", line 32, in init
self._parserimpl.from_crawler(self.crawler, b'')
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\robotstxt.py", line 124, in from_crawler
o = cls(robotstxt_body, spider)
File "C:\Users\PC1\anaconda3\envs\pythonProject\lib\site-packages\scrapy\robotstxt.py", line 116, in init
from protego import Protego
ModuleNotFoundError: No module named 'protego'

Наличие этой строки в логе:

\downloadermiddlewares\robotstxt.py", line 32, in init
    self._parserimpl.from_crawler(self.crawler, b'')

Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.

источник

22:41пожаловаться #1

М

Михаил in Scrapy

Наличие этой строки в логе:

\downloadermiddlewares\robotstxt.py", line 32, in init
    self._parserimpl.from_crawler(self.crawler, b'')

Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.

Спасибо сейчас буду пробывать.

источник

22:42пожаловаться #2

2021 January 14

М

Михаил in Scrapy

Наличие этой строки в логе:

\downloadermiddlewares\robotstxt.py", line 32, in init
    self._parserimpl.from_crawler(self.crawler, b'')

Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.

СПАСИБО БОЛЬШОЕ!!!! ВАШ ОТВЕТ РЕШИЛ МОЮ ПРОБЛЕМУ)) аж легче стало😉, завтра будем дальше штудировать scrapy так как django мне почему то не зашел.

источник

00:31пожаловаться #3

КО

Костя Остапенко... in Scrapy

Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение

источник

03:24пожаловаться #4

AR

Andrey Rahmatullin in Scrapy

Ух

источник

06:42пожаловаться #5

МС

Михаил Синегубов... in Scrapy

Костя Остапенко

Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение

"Оставь надежду всяк сюда входящий".
Не думаю, что питон в стоке осилит. Скорее всего, надо писать свой парсер с втягиванием всего этого в базу.
И да, сделать такой json, так себе идейка. Он же обрабатывается парсером весь сразу. Это что то Json Lines (или как он там пишется) надо было

источник

08:54пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

Да, писать что-то поточное а-ля SAX

источник

08:55пожаловаться #7

AR

Andrey Rahmatullin in Scrapy

Может даже готовое есть

источник

08:56пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

Но и то, смотря что потом с этими данными делать надо

источник

08:56пожаловаться #9

B

Bulatbulat48 in Scrapy

Наличие этой строки в логе:

\downloadermiddlewares\robotstxt.py", line 32, in init
    self._parserimpl.from_crawler(self.crawler, b'')

Свидетельствует о том что setting ROBOTSTXT_OBEY был изменен с дефолтного False на True.
Т.е. если ROBOTSTXT_OBEY изменить обратно на False то этой ошибки не возникнет.

👍👍

источник

12:09пожаловаться #10

A

Andrii in Scrapy

Костя Остапенко

Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение

Dadroit Viewer, может потянет. Или тебе в питоне?

источник

12:42пожаловаться #11

МС

Михаил Синегубов... in Scrapy

кстати, да. Под винду есть достойные решения для работы с JSON, а вот под линукса, пока, не нашел...
HugeJsonViewer еще под винду есть, но, судя по переводчику:
"Вдохновленный вопросом о рекомендациях по программному обеспечению, я написал эту программу просмотра для очень больших файлов JSON. Он может открывать файлы размером 1,4 ГБ или даже больше, если у вас в ~ 7 раз больше оперативной памяти на вашем компьютере." не думаю что и он потянет :)

источник

12:47пожаловаться #12

К

Кирилл in Scrapy

Наверное легче самому парсер накидать, чтоб посимвольно читал из файла. Точнее не парсер, а сплитер, чтоб разбить файл не нарушая структуру json, а дальше уже обычными парсерами, когда размер будет вменяемый

источник

12:50пожаловаться #13

i

Костя Остапенко

Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение

если не взлетит с Edit: Also worth a look - kashif's comment about json-streamer and Henrik Heino's comment about bigjson.
как указано тута: https://stackoverflow.com/questions/10382253/reading-rather-large-json-files-in-python

Reading rather large json files in Python

Possible Duplicate:
Is there a memory efficient and fast way to load big json files in python?
So I have some rather large json encoded files. The smallest is 300MB, but this is by far the sma...

источник

12:54пожаловаться #14

i

то лучше написать нормально чтобы стока гигов одним джсоном не кидалось.или хотя бы построчно делалось. у scrapy даже вроде решение изкоробки есть на это дело.

источник

12:54пожаловаться #15

К

Кирилл in Scrapy

то лучше написать нормально чтобы стока гигов одним джсоном не кидалось.или хотя бы построчно делалось. у scrapy даже вроде решение изкоробки есть на это дело.

Ну да, там скорее всего в одну строчку и напихано, чтоб сократить размер 😆

источник

12:56пожаловаться #16

КО

Костя Остапенко... in Scrapy

Костя Остапенко

Привет всем ))
Кто-то решал проблемку открытия очень большого файла JSON (168gb в моему случае) я пробовал ijson но что-то идёт не так ? Если кто сталкивался с данной проблемой буду благодарен за решение

решил проблему все же через ijson
очень легко в две строчки
import ijson
import csv

def parse_json(json_filename):
with open(json_filename, 'rb') as input_file:
# load json iteratively
parser = ijson.items(input_file, '', multiple_values=True)
cont = 0
for value in parser:
data = dict()
data['id'] = value['_id']['$oid']
data['zip'] = value['zip']
data['visit_date'] = value['visit_date']['$date'] .......

источник

14:49пожаловаться #17

D

Dmitry in Scrapy

Всем привет. кто-нибудь сталкивался в openpyxl с копированием merged cells между таблицами?
нужно скопировать диапазон ячеек с одного workbook в другой. проблема в том, что объединения ячеек не копируются. более менее простого решения пока не нашел.

источник

15:41пожаловаться #18

МС

Михаил Синегубов... in Scrapy

а должно? по идее, это "руками" надо делать. Определить что с чем смержено и сделать так же

источник

15:49пожаловаться #19

D

Dmitry in Scrapy

Михаил Синегубов

а должно? по идее, это "руками" надо делать. Определить что с чем смержено и сделать так же

думал, что как-то внутри это должно быть реализовано или кто-то реализовал уже, но гугл не помог. остается только "руками"

источник

15:54пожаловаться #20