Привет, а вот представьте себе, что у меня есть большое количество коротких строк (товарных названий), скажем 100К.
Среди них очень много близких по написанию, а я хочу выбрать семпл из наиболее разнообразных по некоторой метрике. Например по левенштейну или другой метрике попарной близости.
Есть ли какие-то существующие наработки для такой задачи? Или придется что-то самим выдумывать?
Мне кажется, для этой задачи вполне годится эвристическое решение. Например, такое:
1) насэмплить случайную выборку в несколько раз больше, чем нужно, и посчитать внутри неё все попарные расстояния
2) итеративно выкидывать из выборки текст с самым близким средним расстоянием до k ближайших соседей в оставшейся выборке, пока она не уменьшится до нужного размера.
Думаю, что это будет на порядки быстрее, чем строгое решение, и мало отличимо по качеству.