Телеграмм чат группы begtinchat страница 450

Size: a a a

Чат к каналу @begtin

2020 May 03

The objective of this report is to offer a real-time assessment of the reverberations on consumer and business behavior in the wake of the growing coronavirus outbreak.

источник

16:38пожаловаться #1

2020 May 05

Ivan in Чат к каналу @begtin

Кто знает работающие способы парсить инфу с zakupki.gov.ru ?

Там, кажется, есть какое-то хитрое кэширование/защита:
если просто парсить (дергая страницы curl'ом, условно), то часто упираешься в 403 forbidden. При это если страницу запросить через браузер (кажется важно наличие JS), то страница "оживает", и после этого отдается и curl'у, вместо 403. Но упирается в какую-нибудь следующую) Обойти это так и не получилось.

источник

07:46пожаловаться #2

foi in Чат к каналу @begtin

Ivan

Неужели надо пользоваться phantomjs :(

источник

07:54пожаловаться #3

Ivan in Чат к каналу @begtin

с PhantomJS понятно, но потребует более мощного хостинга(
Хотелось бы убедиться что нет других способов.

источник

07:56пожаловаться #4

Victor Stepankov in Чат к каналу @begtin

PhantomJS уже лет пять никто не использует, есть headless Chrome.

Курлом в лоб дёргать тоже занятие бесполезное.
Ибо куки, ибо юзер агент

источник

08:19пожаловаться #5

Ivan in Чат к каналу @begtin

юзерагент в curl можно подставить, куки, в принципе, тоже. но зависимости поведения сайта от них я не обнаружил

источник

08:35пожаловаться #6

Ivan in Чат к каналу @begtin

именно от JS оживает

источник

08:35пожаловаться #7

Victor Stepankov in Чат к каналу @begtin

Ivan

юзерагент в curl можно подставить, куки, в принципе, тоже. но зависимости поведения сайта от них я не обнаружил

конечно, можно подставить.
Только вы либо тратите мыслительные ресурсы на изобретение велосипеда, на эмуляцию асинхронных запросов, ещё чего-нить, либо на решение задачи

источник

09:36пожаловаться #8

Ivan in Чат к каналу @begtin

задача - получать данные по закупкам. по контрактам можно удобно брать на clearspending, а с аукционами проблема

источник

09:42пожаловаться #9

Gip24 in Чат к каналу @begtin

Следят все за всеми...

- Эксперты обнаружили весьма инвазивное поведение браузеров Mi и Mint, поставляемых с мобильными устройствами Xiaomi. Они собирают достаточно данных, чтобы идентифицировать личность пользователя, едва шифруют эти данные и отправляют их на серверы, располагающиеся в Сингапуре и России, говорят исследователи

https://safe.cnews.ru/news/top/2020-05-05_xiaomi_sledit_za_polzovatelyami

CNews.ru

Xiaomi следит за пользователями и отправляет данные в Россию

Эксперты обнаружили весьма инвазивное поведение браузеров Mi и Mint, поставляемых с мобильными устройствами Xiaomi....

источник

13:14пожаловаться #10

Gip24 in Чат к каналу @begtin

Британский музей открывает онлайн-доступ

- более чем половина объектов своей коллекции (4,5 миллиона единиц). Из них 1,9 миллиона изображений доступны по лицензии Creative Commons 4.0.

https://www.britishmuseum.org/collection

The British Museum

Collection

Explore the British Museum collection and journey through two million years of human history.

источник

15:25пожаловаться #11

ID:0 in Чат к каналу @begtin

Тем временем Bloomberg запустил свой трекер восстановления экономики [1], в основном на альтернативных данных:
- новые случаи COVID-19
- индекс закрытия (Lockdown Index)
- запросы на пособие по безработице
- число поездок общественным транспортом
- ипотечные запросы
- удобство потребителей
- продажи в тех же магазинах (непонятный критерий)
- бронирования в ресторанах
- активные нефтяные скважины
- производство стали
- индекс S&P
- финансовое состояние рынка

Почти все индексы негосударственные, основанные на альтернативных данных.

Ссылки:
[1] https://www.bloomberg.com/graphics/recovery-tracker/

источник

19:16пожаловаться #12

Dmitry Savac in Чат к каналу @begtin

https://t.me/begtin/1887

Вот полная ерунда написана. Кто-то не выспался.

Ivan Begtin

Максим Смирнов очень кратко и точно [1] про правильное определение digital disruption. Это вынужденная ситуация зависимости как альтернативы потери эффективности. Наиболее эффективные стартапы автоматизируют очень узкую функцию, но очень эффективно. И в определённый момент ты оказываешься в ситуации когда, либо ты от этого сервиса отказываешься и занимаешься, прости Господи за неприличное слово, импортозамещением, или используешь с кучей рисков: санкций, банкротства сервис провайдера, смены его бизнес модели, безальтернативного повышения цены и так далее. Самый очевидный и наглядный пример сейчас - это Zoom. Нишевый сервис который создавался совсем не для того для чего сейчас используется, как следствие, при всём богатстве выбора альтернативы не радуют.

В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие…

источник

19:40пожаловаться #13

2020 May 06

ID:0 in Чат к каналу @begtin

Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store

Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.

- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.

- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию

- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных

- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.

Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c

#opendata #data #datalakes #datamanagement #datagovernance

Medium

The 5 Data Consolidation Patterns — Data Lakes, Data Hubs, Data Virtualization/Data Federation, Data Warehouse, and Operational Data Stores

How to choose the right one, and why you may need more than one

источник

16:27пожаловаться #14

Gip24 in Чат к каналу @begtin

Закупили, да не то, оказалось.

https://www.istories.media/investigations/2020/05/06/testi-s-opasnoi-pogreshnostyu/

www.istories.media

Тесты с опасной погрешностью

Московские власти купили сотни тысяч экспресс-тестов на антитела к коронавирусу и утверждают, что они из Нидерландов. На самом деле — они китайские и их точность далека от заявленной

источник

16:31пожаловаться #15

ДK

Дмитрий K in Чат к каналу @begtin

https://www.internationalbudget.org/sites/default/files/country-surveys-pdfs/2019/open-budget-survey-russia-2019-en.pdf

РФ-то уже на 13м месте в мире по раскрытию публичных финансов, чтобы это не значило))

полный отчет по ссылке https://www.internationalbudget.org/open-budget-survey/open-budget-survey-2019-0

источник

16:37пожаловаться #16

Ivan Begtin in Чат к каналу @begtin

Дмитрий K

Да, там несущественные изменения. Скорее сохранение текущего уровня открытости

источник

16:45пожаловаться #17

ID:0 in Чат к каналу @begtin

Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.

OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.

Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.

Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine

#opendata #openrefine #datajobs

RefinePro

At RefinePro, we help organization to automate processes and create new products, services, and insights.

источник

18:43пожаловаться #18

Ivan Begtin in Чат к каналу @begtin

Gip24

Закупили, да не то, оказалось.

https://www.istories.media/investigations/2020/05/06/testi-s-opasnoi-pogreshnostyu/

www.istories.media

Тесты с опасной погрешностью

Это к данным почти никакого отношения не имеет

источник

18:44пожаловаться #19

Ivan Begtin in Чат к каналу @begtin

Да и к государству тоже небольшое, только в части госзаказа на эти тесты

источник

18:45пожаловаться #20