Size: a a a

2018 November 20

SK

Sergey Karpiy in Moscow Spark
Не вижу смысла писать столько столбцов
источник

AA

Anton Alekseev in Moscow Spark
Sergey Karpiy
Anton Вектор на словах, слова это пути...., пиши свой парсер в каунт векторайзер
я по сути так и сделал через мап
источник

SK

Sergey Karpiy in Moscow Spark
Ну дык есть же готовый класс в спарке
источник

AA

Anton Alekseev in Moscow Spark
Sergey Karpiy
Не вижу смысла писать столько столбцов
Но сейчас мне такие данные прилетают, надо починять)
источник

SK

Sergey Karpiy in Moscow Spark
Хэш правда
источник

PK

Pavel Klemenkov in Moscow Spark
В общем, отвечая на твой вопрос, вот
df = spark.createDataFrame([[1], [2]], schema=["a.b"])
df["`a.b`"]
Column<b'a.b'>
источник

AA

Anton Alekseev in Moscow Spark
Sergey Karpiy
Ну дык есть же готовый класс в спарке
Можно ссылку? не понял о чем вы.
источник

SK

Sergey Karpiy in Moscow Spark
Anton Alekseev
Можно ссылку? не понял о чем вы.
Ну в смысле раньше вроде в спарке был только хэш векторайзер, сейчас вроде есть уже каунт векторайзер
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
В общем, отвечая на твой вопрос, вот
df = spark.createDataFrame([[1], [2]], schema=["a.b"])
df["`a.b`"]
Column<b'a.b'>
вообщем реплейсить слеш)
источник

SK

Sergey Karpiy in Moscow Spark
Anton Alekseev
вообщем реплейсить слеш)
В каунтвектррайзере есть встроенный парсер, его надо поменять  на твой слеш
источник

AA

Anton Alekseev in Moscow Spark
Sergey Karpiy
В каунтвектррайзере есть встроенный парсер, его надо поменять  на твой слеш
щас почитаем
источник

SK

Sergey Karpiy in Moscow Spark
Anton Alekseev
щас почитаем
В официальном доке пример со сплитом, ну тогда сплит по слешу или что там ещё
источник

AA

Anton Alekseev in Moscow Spark
Sergey Karpiy
В официальном доке пример со сплитом, ну тогда сплит по слешу или что там ещё
Ещё раз опишу структуру данных. Таблица где индекс это юзер, колонка это путь к файлу, пересечение какое-то число (ни из пути ни из юзера не получить его). Необходимо сперва препроцессинг, потом вектор ассемблер не нарушая порядки колонок (получим индекс юзер, и вектор в соответствии, итого 2 колонки), и это уже в ml модуль спарка для кластеризации и дальнейших телодвижений.
источник

AA

Anton Alekseev in Moscow Spark
так что каунтвекторайзер мне тут не поможет
источник

SK

Sergey Karpiy in Moscow Spark
А порядок зачем?
источник

PK

Pavel Klemenkov in Moscow Spark
Anton Alekseev
так что каунтвекторайзер мне тут не поможет
Поможет, если все файлики пользователя будут в одном столбце как строчка с разделителями хранится
источник

SK

Sergey Karpiy in Moscow Spark
Порядок колонок имеется в виду
источник

PK

Pavel Klemenkov in Moscow Spark
Тебе же по факту от этой шняги нужен бинарный признак, есть файл у пользователя или нет. Или ты по ним какую-то отдельную стату считаешь?
источник

AA

Anton Alekseev in Moscow Spark
Sergey Karpiy
А порядок зачем?
имеется ввиду один порядок для всех пользователей, а как отсортирован не важно
источник

SK

Sergey Karpiy in Moscow Spark
Ну тогда не вижу проблем сделать именно тк как Павел выше описал
источник