
Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].
Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.
При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.
В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны
Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]
Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.
Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data
#data #science #opendata #bigdata