Size: a a a

2020 June 26

OS

Oleg Shleiko in Scrapy
Andrey Rahmatullin
https://twistedmatrix.com/documents/current/api/twisted.internet.ssl.CertificateOptions.html говорит что Session tickets действительно по дефолту выключены
а как их включить?
источник

OS

Oleg Shleiko in Scrapy
источник

OS

Oleg Shleiko in Scrapy
И 1.3 не поддерживается?
источник

AR

Andrey Rahmatullin in Scrapy
Oleg Shleiko
а как их включить?
Не вижу смысла
источник

AR

Andrey Rahmatullin in Scrapy
Oleg Shleiko
И 1.3 не поддерживается?
Всё поддерживается что поддерживает libssl и pyopenssl
источник

OS

Oleg Shleiko in Scrapy
А можете подсказать, скрапи куки использует в запросах?
источник
2020 June 27

МС

Михаил Синегубов... in Scrapy
да, по умолчанию, но можно отключить
источник

МС

Михаил Синегубов... in Scrapy
либо распараллелить
источник

OS

Oleg Shleiko in Scrapy
Так мне наоборот нужны, но такое чувство что не использует... Спасибо, завтра на эхо-стенде проверим)
источник

B

Bulatbulat48 in Scrapy
Oleg Shleiko
Так мне наоборот нужны, но такое чувство что не использует... Спасибо, завтра на эхо-стенде проверим)
источник

A

Alex in Scrapy
ребятки всем привет)
помогите пройти тесты на курсере)))
даже не решить, а понять где я ошибся
итак задание звучит так
ссылка на статью которую надо спарсить:
https://en.wikipedia.org/wiki/Stone_Age
Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:
body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])
если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение
источник

OS

Oleg Shleiko in Scrapy
Благодарю
источник

S

SoHard 🎄 in Scrapy
Alex
ребятки всем привет)
помогите пройти тесты на курсере)))
даже не решить, а понять где я ошибся
итак задание звучит так
ссылка на статью которую надо спарсить:
https://en.wikipedia.org/wiki/Stone_Age
Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:
body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])
если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение
Это что за курс такой?
источник

A

Alex in Scrapy
SoHard 🎄
Это что за курс такой?
Создание Web-сервисов на Python
это третья часть курса Программирование на Python Специализация
источник

AD

Arigato Darigato in Scrapy
Alex
ребятки всем привет)
помогите пройти тесты на курсере)))
даже не решить, а понять где я ошибся
итак задание звучит так
ссылка на статью которую надо спарсить:
https://en.wikipedia.org/wiki/Stone_Age
Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:
body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])
если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение
А второе задание не получается?
источник

AD

Arigato Darigato in Scrapy
Точно можно использовать список с тегами(find_all(["h1", "h2", "h3", "h4", "h5", "h6"])), да?
источник

A

Alex in Scrapy
Arigato Darigato
Точно можно использовать список с тегами(find_all(["h1", "h2", "h3", "h4", "h5", "h6"])), да?
находил такой вариант на стаковерфлов
да и по результатам находит хедеры такой вариант
источник

К

Кирилл in Scrapy
Alex
ребятки всем привет)
помогите пройти тесты на курсере)))
даже не решить, а понять где я ошибся
итак задание звучит так
ссылка на статью которую надо спарсить:
https://en.wikipedia.org/wiki/Stone_Age
Ваша задача — прочитать файл, пройтись Beautiful Soup по статье, найти её тело (это <div id="bodyContent">) и внутри него подсчитать:

1. Количество картинок (img) с шириной (width) не меньше 200. Например: <img width="200">, но не <img> и не <img width="199">
2. Количество заголовков (h1, h2, h3, h4, h5, h6), первая буква текста внутри которых соответствует заглавной букве E, T или C. Например: <h1>End</h1> или <h5><span>Contents</span></h5>, но не <h1>About</h1> и не <h2>end</h2> и не <h3><span>1</span><span>End</span></h3>
3. Длину максимальной последовательности ссылок, между которыми нет других тегов, открывающихся или закрывающихся. Например: <p><span><a></a></span>, <a></a>, <a></a></p> - тут 2 ссылки подряд, т.к. закрывающийся span прерывает последовательность. <p><a><span></span></a>, <a></a>, <a></a></p> - а тут 3 ссылки подряд, т.к. span находится внутри ссылки, а не между ссылками.
4. Количество списков (ul, ol), не вложенных в другие списки. Например: <ol><li></li></ol>, <ul><li><ol><li></li></ol></li></ul> - два не вложенных списка (и один вложенный)

мое решение:
body = BeautifulSoup(html_doc, 'html.parser')
soup = body.find(id="bodyContent")

1. imgs = len([int(width['width']) for width in soup.find_all("img") if int(width['width']) >= 200])

2. headers = len([heading.text for heading in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"]) if heading.text.startswith(('E', 'C', 'T'))])
3. linkslen = max([len(links.find_next_siblings()) for links in soup.select('a')])
4. lists = len([tag for tag in soup.find_all(['ul', 'ol']) if not tag.find_parents(['ul', 'ol'])])
если с 1 все ок то остальные решения чет под сомнением
если не формат, удалю сообщение
Заливай код на pastebin.com
источник

AD

Arigato Darigato in Scrapy
Alex
находил такой вариант на стаковерфлов
да и по результатам находит хедеры такой вариант
Правильно подсчитал? Можно стрипнуть еще после text
источник

AD

Arigato Darigato in Scrapy
или statswith не учитывает табуляцию?
источник