Телеграмм чат группы contests

На видео будни энтузиаста в области Natural Language Processing). Личный проект Bookstat. В процессе анализа 300 тыс. русскоязычных книг. Примерно 250 Гб литературного и научного текста, предположительно 700 млн предложений. Около 30% от доступных книг в Литрес.
Ближайшие цели:
1) создание гигантского словаря литературных словосочетаний. Предположительно будет около 3 млрд уникальных словосочетаний.
2) полнотекстовый поиск по книгам с фильтрацией по множеству уникальных параметров (в большей степени по тематическим)
3) извлечение именованных сущностей, фактов, цитат, утверждений.
4) классификация текста по 3000+ тематическим категориям на уровне предложений
5) анализ и сравнение книг по множеству лингвистических параметров
6) рекомендательная система для любитей книг
И еще 100500+ различных недокументированных возможностей, которые выявятся в процессе. The truth is out there.
Релиз первой беты Bookstat в первом квартале 2020.
В романтических мечтах: Гугл в 2010 подсчитал, что в мире около 130 млн книг. В общем 100 Тб видимо объем. Всего то 7 дисков по 15 ТБ )
Ну а пока, наверное, добавим для фана +10 млн публикаций из русских СМИ.

источник

02:16пожаловаться #17

НК

Николай Карпенко in Конкурсы Telegram

https://www.youtube.com/watch?v=Zo1bd_P9da0

YouTube

miteigi nemoto - Dreaming Android

Music: miteigi nemoto - Dreaming Android Video by miteigi nemoto On video you can see experimental interface for image explore (powered by Infadesk).

источник

02:26пожаловаться #18

НК

Николай Карпенко in Конкурсы Telegram

на и так для развлекухи - картинки из СМИ 2013 года, загруженные на карту Гугла ) экспериментальный интерфейс - любой зум ин аут колесиком мышки - подставлял случайные картинки.

источник

02:27пожаловаться #19

s

sorrge in Конкурсы Telegram

Николай Карпенко

На видео будни энтузиаста в области Natural Language Processing). Личный проект Bookstat. В процессе анализа 300 тыс. русскоязычных книг. Примерно 250 Гб литературного и научного текста, предположительно 700 млн предложений. Около 30% от доступных книг в Литрес.
Ближайшие цели:
1) создание гигантского словаря литературных словосочетаний. Предположительно будет около 3 млрд уникальных словосочетаний.
2) полнотекстовый поиск по книгам с фильтрацией по множеству уникальных параметров (в большей степени по тематическим)
3) извлечение именованных сущностей, фактов, цитат, утверждений.
4) классификация текста по 3000+ тематическим категориям на уровне предложений
5) анализ и сравнение книг по множеству лингвистических параметров
6) рекомендательная система для любитей книг
И еще 100500+ различных недокументированных возможностей, которые выявятся в процессе. The truth is out there.
Релиз первой беты Bookstat в первом квартале 2020.
В романтических мечтах: Гугл в 2010 подсчитал, что в мире около 130 млн книг. В общем 100 Тб видимо объем. Всего то 7 дисков по 15 ТБ )
Ну а пока, наверное, добавим для фана +10 млн публикаций из русских СМИ.

А откуда у тебя столько книг?

источник

05:33пожаловаться #20