На видео будни энтузиаста в области Natural Language Processing). Личный проект Bookstat. В процессе анализа 300 тыс. русскоязычных книг. Примерно 250 Гб литературного и научного текста, предположительно 700 млн предложений. Около 30% от доступных книг в Литрес.
Ближайшие цели:
1) создание гигантского словаря литературных словосочетаний. Предположительно будет около 3 млрд уникальных словосочетаний.
2) полнотекстовый поиск по книгам с фильтрацией по множеству уникальных параметров (в большей степени по тематическим)
3) извлечение именованных сущностей, фактов, цитат, утверждений.
4) классификация текста по 3000+ тематическим категориям на уровне предложений
5) анализ и сравнение книг по множеству лингвистических параметров
6) рекомендательная система для любитей книг
И еще 100500+ различных недокументированных возможностей, которые выявятся в процессе. The truth is out there.
Релиз первой беты Bookstat в первом квартале 2020.
В романтических мечтах: Гугл в 2010 подсчитал, что в мире около 130 млн книг. В общем 100 Тб видимо объем. Всего то 7 дисков по 15 ТБ )
Ну а пока, наверное, добавим для фана +10 млн публикаций из русских СМИ.