В официальном доке пример со сплитом, ну тогда сплит по слешу или что там ещё
Ещё раз опишу структуру данных. Таблица где индекс это юзер, колонка это путь к файлу, пересечение какое-то число (ни из пути ни из юзера не получить его). Необходимо сперва препроцессинг, потом вектор ассемблер не нарушая порядки колонок (получим индекс юзер, и вектор в соответствии, итого 2 колонки), и это уже в ml модуль спарка для кластеризации и дальнейших телодвижений.