Поэтому "все видно в метриках" - это конечно так, только эти метрики мы можем посчитать для очень ограниченного класса свойств языка, на которые уже кто-то потрудился разметить данные.
В сложный предикт, например у меня есть conditional gpt, в ней есть много жанров текста, но не было жанра фэнтези но были производные от него. В общем она смогла более менее похоже написать фэнтези