
- Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными
Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.
#opendata #data #bigdata #datasource