ок, тебе виднее) зачем ведь, действительно, целый отдел r&d в facebook работал над этой проблемой и выпустил в опенсорс библиотеку для этого, раз всё так просто)
отсеить все с умляутами. с артиклями только пробел das пробел ;das пробел; das точка и так далее со всеми более менее известными. отсеится по большей части не английский... дальше уже смотреть - но это задротство конечно...