+ нет необходимости выяснять, слово заимствовано несколько раз, или родное -> чистая стата, а не грязная, потому, что ею нельзя вертеть как хочется, она покажет именно близость языка по корпусу текстов, без ручного разделения на заимствованные и родные слова, которые вносят искажения, рукой человека, который будет маркировать, заимствованные они, или нет