Телеграмм чат группы scrapy

ребятки всем привет)
помогите пройти тесты на курсере)))
даже не решить, а понять где я ошибся
итак задание звучит так
ссылка на статью которую надо спарсить:
https://en.wikipedia.org/wiki/Stone_Age

Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:

body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])

если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение

источник

09:55пожаловаться #11

Oleg Shleiko in Scrapy

Bulatbulat48

https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#cookies-debug

Благодарю

источник

09:56пожаловаться #12

SoHard 🎄 in Scrapy

Alex

Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:

body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])

если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение

Это что за курс такой?

источник

10:32пожаловаться #13

Alex in Scrapy

SoHard 🎄

Это что за курс такой?

Создание Web-сервисов на Python

это третья часть курса Программирование на Python Специализация

источник

10:34пожаловаться #14

Arigato Darigato in Scrapy

Alex

Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:

body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])

если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение

А второе задание не получается?

источник

10:37пожаловаться #15

Arigato Darigato in Scrapy

Точно можно использовать список с тегами(find_all(["h1", "h2", "h3", "h4", "h5", "h6"])), да?

источник

10:37пожаловаться #16

Alex in Scrapy

Arigato Darigato

Точно можно использовать список с тегами(find_all(["h1", "h2", "h3", "h4", "h5", "h6"])), да?

находил такой вариант на стаковерфлов
да и по результатам находит хедеры такой вариант

источник

10:39пожаловаться #17

Кирилл in Scrapy

Alex

Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:

body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])

если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение

Заливай код на pastebin.com

источник

10:39пожаловаться #18

Arigato Darigato in Scrapy

Alex

находил такой вариант на стаковерфлов
да и по результатам находит хедеры такой вариант

Правильно подсчитал? Можно стрипнуть еще после text

источник

10:39пожаловаться #19

Arigato Darigato in Scrapy

или statswith не учитывает табуляцию?

источник

10:40пожаловаться #20