Size: a a a

Чат к каналу @begtin

2020 June 23

FM

Fedor Moroseev in Чат к каналу @begtin
Дмитрий Лейкин
А это разве только для Москвы?
У Москвы сейчас будет особый режим по ИИ, по описанию он даст хороший старт начинающим компаниям.

А озвученные льготы закрепят этот старт

Однако у Москвы нет ИТМО и СПб ГУ. То есть сильные кадры преимущественно кует Питер.
источник
2020 June 24

NK

ID:0 in Чат к каналу @begtin
О ведении реестров и их качестве, вот, например, федеральный информационный реестр гарантирующих поставщиков и зон их деятельности [1] который ведёт ФАС России. Как оценить его качество? Как убедиться что он доверителен?

Это маленький реестр, не такой "жирный" как реестр СОНКО, в нём всего 675 организаций, а не десятки тысяч, но этот реестр также ведётся в электронном виде и только в Excel, где и публикуется на сайте ФАС России.

Критерии проверки качества ведения любого более-менее осмысленного реестра прорастают из критериев качества его проектирования и целей.
В общем случае реестр должен быть:
1. Достоверным - информация в реестре должна соответствовать действительности
2. Полным - включать все необходимые сведения и все необходимые объекты учёта (в зависимости от того что это за реестр)
3. Актуальным - сведения в реестр должны быть актуальны, идеально, на момент просмотра, допустимо на срок установленный его регламентом.
4. Доступным/Открытым - если иное не предусмотрено законодательством (что для реестров редко, обычно они открыты)
5. Учётным - записи реестра должны иметь сроки давности, уникальные номера, должны хранится сведения о исключённых записях, о изменениях и причинах изменений.

Каждый из этих критериев можно декомпозировать когда мы начинаем проверять конкретный реестр:
1. Достоверность
Внесённые сведения должны быть достоверны, а это означает что, например, для реестра организаций проверка достоверности начинается с кросс-сопоставления с эталонными справочниками, в базовом виде с ЕГРЮЛ, в расширенном, это когда известны другие справочники содержащие актуальные сведения.
Самые базовые проверки: валидность ИНН и ОГРН, например, в случае реестра ФАС, только 2 значения ОГРН невалидны, валидны все значения ИНН, но и там и там, далеко не все значения в колонках ИНН и ОГРН заполнены. Из 675 записей у 132 нет значений ОРГН и у 277 нет кода ОГРН. Это относится частично к достоверности данных и частично к проверке на полноту.
Проверка на достоверность также предполагает сверку сведений того что ИНН и ОГРН приведены именно той организации, а не ИНН одной и ОГРН другой, на соответствие названия организации её названию в ЕГРЮЛ, точности указания адреса и так далее. Это всё ещё базовый набор правил проверки достоверности сведений. Более расширенные проверки включают проверку достоверности внесенных адресов, контактов и тд.

2. Полнота
Полнота данных включает как полноту заполнения сведений, так и полноту самого реестра. В первом случае это пример приведенный выше когда не все записи в колонках ОГРН и ИНН, но и колонки с телефонами организаций заполнены лишь на 54%, а email адресов на 45%.
И так далее по каждому пункту.
Сам реестр формируется на основании поступивших в ФАС распоряжений регуляторов в субъектах федерации, проверка полноты здесь, возможна только вручную проверкой региональных НПА. К счастью, реквизиты этих НПА указаны, к несчастью, не всегда корректно и без ссылок на опубликованные документы.

3. Доступность/Открытость
Это, в первую очередь, проверка формата публикации. В данном случае - это Excel файл, но в основном он нужен органу власти для понимания области его регулирования. В случаях когда ведение реестра создаёт какую-либо финансовую ответственность или, например, используется банками как реестр СО НКО, то он нужен в XML или CSV формате для загрузки во внутренние системы того же банка и требуется API для работы с этими данными для получения актуальных сведений. Например, так устроен реестр ФИАС [2] и многочисленные общедоступные реестры ФНС России

4. Учетность
Проверка реестра на то насколько он является учётной системой - это, проверка регламента и интерфейса системы. Большая часть госорганов с публичными реестрами не заморачиваются и ведут их как Бог на душу положит. Плохо ведут в общем. Исключение ФНС России, и те органы власти для которых публикация реестра - это лишь продолжение внутренней системы где он ведётся.
источник

NK

ID:0 in Чат к каналу @begtin
Во всех более менее серьёзных органах власти и компаниях принципы ведения реестров, на самом деле, понимают. И понимают даже в куда более широком смысле чем то что я тут описываю, поскольку ещё есть разного рода системы НСИ, вопросы миграции с унаследованных систем, технологические особенности и не только. Некоторые из таких органов сознательно забивают на малозначащее для них и делают акцент на более значащее. Например, в реестр участников и неучастников бюджетного процесса [3] в Федеральном казначействе полно нерелевантных сведений в виде email адресов и веб-сайтов организаций, но почти идеально вычищены все реквизиты, особенно лицевые счета. Потому что реестр нужен Казначейству именно для учета и согласованной работы со всеми лицевыми счетами.

В качестве завершения, качество сведений в информационных системах и реестрах вполне поддаётся оценке, а измерение качества вполне может быть сформулировано в руководство и даже, частично, автоматизировано. Ну а то насколько полон, актуален, доступен и учётен каждый конкретный реестр - это на совести исключительно людей ответственных за него.

Ссылки:
[1] http://fas.gov.ru/pages/activity/tariffregulation/federalnyij-informaczionnyij-reestr-garantiruyushhix-postavshhikov-i-zon-ix-deyatelnosti.html
[2] http://fias.nalog.ru
[2] http://fias.nalog.ru
[3] http://budget.gov.ru

#data #registry #quality #dataquality #dqm
источник

C

Combot in Чат к каналу @begtin
Приветствуем Вас!  
В качестве подтверждения, что Вы не бот, просьба  представиться и рассказать о себе. Если окажется что Вы не человек, то Вы можете быть удалены из чата. Также в чате предусмотрен вечный бан за рекламу
источник

NK

ID:0 in Чат к каналу @begtin
Весьма любопытный обзор/мини-анализ инструментов машинного обучения [1] (на английском). Автор просмотрел более 200 ML инструментов и делает вывод что инструментарий для AI неразвит, несмотря на весь пузырь в этой области. Многие проблемы не решены, многие задачи требуют инструментов которые пока ещё никто не разрабатывает. И, в качестве резюме, то что хайп вокруг AI угасает и если Вы хотите заниматься данными, то выбирайте инженерию, а не машинное обучение. Машинное обучение всегда сможете наверстать, а без инженерных навыков в жизни никуда.

Ссылки:
[1] https://huyenchip.com/2020/06/22/mlops.html

#data #ai #ml
источник

NK

ID:0 in Чат к каналу @begtin
Для тех кто мог упустить, напоминаю о дискуссии через час.
источник

NK

ID:0 in Чат к каналу @begtin
Сегодня в 15:00 пройдет дискуссия «Человек и корпорации: что происходит с нашей приватностью?».

📌 YouTube: https://youtu.be/iZ5vR2otr3I

Спикеры: Екатерина Калугина (Double Data), Артур Хачуян (Tazeros Global Systems), Иван Бегтин (Инфокультура). Модератор Василий Буров.

Подключайтесь к эфиру, подписывайтесь на страницу, жмите на колокольчик и следите за нашими обновлениями 🙂
источник

NK

ID:0 in Чат к каналу @begtin
У компании JetBrains (разработчика языка программирования Kotlin и множества отличных инструментов для программистов) с корнями в Санкт-Петербурге вышел ежегодный обзор интересов программистов за 2019 год [1] проведённый на основе опроса 19 696 человек, а также, не менее интересный анализ сравнения среды разработчиков в мире и в России [2].

И там и там столько всего интересного что надо выбирать о чём рассказать, я сосредоточусь на нескольких фактах сравнения:
1. В мире PHP выпал из пятёрки самых популярных языков, в России он пока ещё на 4-м месте.
2. Основной язык программирования для тех кто начинает - это Java, но уже большее число программистов владеют Python
3. В России в 10 раз больше используют базу данных ClickHouse (удачное импортозамещение)
4. Вовлечение разработчиков в открытый код в России на 41%, в мире 51%
5. В России используют облачные сервисы в 2 раза реже чем в мире - 27%, а в мире - 53%

И некоторые общие тренды:
1. Javascript, Python, Go, Kotlin - наиболее востребованные языки программирования.
2. Java - по прежнему "базовый язык", но тут надо оговориться что у JetBrains изначально были качественные продукты для Java и н увидительно что среди их аудитории много Java программистов
3. Разработчиков под андроид и популярность этой платформы в 4 раза выше чем у iOS
4. Самые популярные инструменты для технологий больших данных - это стек Apache: Apache Kafka, Apache Spark, Hadoop, Hive, Flink, Pig, Beam и др.
5. Самые популярные инструменты визуализации, всё ещё, это разные табличные процессоры - это 50% всех опрошенных. На втором месте Tableau - 18%
6. 3-8 часов в неделю посвящают своим проектам 38% разработчиков, а в целом более 60% разработчиков на свои проекты тратят более 3 часов в неделю
7. У большинства хобби - программирование, 58% опрошенных:)

Очень рекомендую прочитать публикации на сайте Jetbrains, там немало других интересных фактов.

Ссылки:
[1] https://www.jetbrains.com/ru-ru/lp/devecosystem-2020/
[2] https://blog.jetbrains.com/ru/2020/06/22/the-state-of-developer-ecosystem-2020/

#developers #survey
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
Fedor Moroseev
У Москвы сейчас будет особый режим по ИИ, по описанию он даст хороший старт начинающим компаниям.

А озвученные льготы закрепят этот старт

Однако у Москвы нет ИТМО и СПб ГУ. То есть сильные кадры преимущественно кует Питер.
Это ошибочное мнение
источник

FM

Fedor Moroseev in Чат к каналу @begtin
Arthur Auhadeev
Это ошибочное мнение
В чем?
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
В части ковки кадров в Питере
источник

FM

Fedor Moroseev in Чат к каналу @begtin
Arthur Auhadeev
В части ковки кадров в Питере
Почему?
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
Потому что в Москве достаточно ВУЗов, которые готовят кадры в ИТ. Совокупно они перекрывают показатели Питера
источник

FM

Fedor Moroseev in Чат к каналу @begtin
Команда ВК из гос университета, JetBrains насколько я знаю это гос. университет и итмо.
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
Это отдельные примеры.
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
В рамках проекта по Кадрам для ЦЭ проводил исследование рынка труда. Не сказать, что это было долго и нудно. Мы небольшой командой разобрали hh.ru и свели в аналитику
источник

FM

Fedor Moroseev in Чат к каналу @begtin
"У Москвы сейчас будет особый режим по ИИ, по описанию он даст хороший старт начинающим компаниям.

А озвученные льготы закрепят этот старт

Однако у Москвы нет ИТМО и СПб ГУ. То есть сильные кадры преимущественно кует Питер."

То есть не согласны с последним тезисом?
источник

AA

Arthur Auhadeev in Чат к каналу @begtin
Да, не согласен:)
источник

FM

Fedor Moroseev in Чат к каналу @begtin
Arthur Auhadeev
Да, не согласен:)
С первыми двумя согласны?
источник

FM

Fedor Moroseev in Чат к каналу @begtin
"У Москвы сейчас будет особый режим по ИИ, по описанию он даст хороший старт начинающим компаниям.

А озвученные льготы закрепят этот старт"
источник