Есть столбец в котором 9к строк. Среди них встречаются такие как «трактор» «трактэр» «ТрАктор». Надо дать понять что это просто «трактор». Но проблема в том, что их можешь быть на столько много вариантов написания, что все вписать в код замены очень проблематично. Очень изящно это решается в клике, но у меня на него лицензия кончилась. Вот и пробую PBI . Пока не нашёл готовую встроенную функцию. То, что предлагалось как то ранее под названием «clustering” вообще не так работает.
Нужна таблица подстановки. Условно, список правильных наименований трактора. В PQ делаете fuzzy join этой таблицы к вашим данным. Но качество этого fuzzy будете проверять сами. Насколько знаю, там расстояние Левенштейна, но может и ошибаюсь.
А как это сделано в Qlik?