0) нормализовать до пары (Тип, Нормализованное имя).
Для типов собрать датасет сокращений ООО=Обществ* с ограниченной ответственност* , ШИЗТ = Школа-интернат закрытого типа, ИНФС = * Инспекция федеральной налоговой службы * (там префиксы и суффиксы бывают, районы указывают) , Ну вы поняли.
1) собрать датасет компаний, матчить по нему. Эта информация публичная, но по запросу. Там для каждой компании есть краткое и полное название.
2) для дублирования, и на случай, когда в базе записи нет, использовать как раз fuzzy + tfidf + сетки + эвристики.
В общем, всё как всегда.