Мне Лёха рассказывал но у меня передоз вина был в тот момент.
Вообще данные надо разметить. Что бы парсер понимал что слово
Окна это тематика строительство —окна.
Вот так даиасет разметить.
Потом модель построить, простую ТФ или биграмную и валидировать выход модели с разметкой.