Я как то рассказывал что веду систематизированный реестр всех госдоменов в России. Они доступны в репозитории на Github [1] для федеральных и региональных властей.
Применений у него много:
- сбор однотипной информации с сайтов
- архивация сайтов с риском исчезновения
- анализ их защищённости (поддержка HTTPS)
- анализ применения стандартов
- анализ цифровых активов госорганизаций
и ещё многое другое.
Но реестр на github'е всегда был не до конца точный, он собирался вначале через поиск корневых доменов и затем поиск всех их поддоменами разными автоматизированными способами.
Но их надо было почистить, классифицировать и тд.
Поэтому на его основе сейчас у меня есть реестр доменов используемых на федеральном уровне власти, 7516 доменов на сегодня. Из них около 2500 - это сайты судов и около 900 сайты подразделений МВД. Все сайты на 3/4 размечены по типам сайтов, на 1/5 по региональной привязке (есть не у всех, а только у территориальных управлений).
Не все из них, в принципе, доступны, некоторые на которых были сайты сохранены по архивным соображениям.
Но по доступным есть проверка поддерживают ли они HTTP и HTTPS.
Если кому-то этот реестр нужен то его рабочая версия есть в отдельной папке репозитория [2]. Этот список - это экспорт из эталонной базы которая теперь перенесена в Airtable. Самой базой в Airtable могу поделиться если кто-то будет готов контрибьютить туда регулярно.
Ссылки:
[1]
https://github.com/infoculture/govdomains/[2]
https://github.com/infoculture/govdomains/tree/master/refined#govenment #domains