есть что-нить фундаментальное для почитать, поискать идеи на тему вычленения "значимых" подстрок из массива строк?
например, есть строки типа:
catsAreFunny
cats_are_liquid
i_love_cats
bestcatsininternet
и, скажем, идея такая, что начинаем с какой-нить буквы и оттягиваемся от нее влево-вправо, скажем, от "ca" тянемся вправо, и куда ни погляди, после него всегда (или достаточно часто) идет "t" -- значит добавляем "cat" значимости, а у "ca" значимость отнимаем, т.к. это вероятно не полное слово
потом тянем дальше, получаем cats, а потом справа и слева от cats уже довольно рандомные буквы, поэтому на этом останавливаемся и делаем вывод -- "есть такое значимое слово cats"