Size: a a a

2018 November 20

AA

Anton Alekseev in Moscow Spark
возвращает
источник

AA

Anton Alekseev in Moscow Spark
колонки без путей нормально селектит. Мне надо от них избавится? или как-то конфигом можно поправить?
источник

PK

Pavel Klemenkov in Moscow Spark
В смысле столбец так называется?
источник

PK

Pavel Klemenkov in Moscow Spark
Anton Alekseev
cannot resolve '`\server.local\A`' given input columns
В этом примере просто используется точечная нотация и спарк думает, что у тебя столбец server это StructType у которого есть поле local
источник

PK

Pavel Klemenkov in Moscow Spark
Но вообще не могу себе представить, зачем называть столбцы путями до файлов
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
В смысле столбец так называется?
да, это имя столбца
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Но вообще не могу себе представить, зачем называть столбцы путями до файлов
Такое бывает когда приходится обработывать снапшоты файловых систем
источник

PK

Pavel Klemenkov in Moscow Spark
Т.е. если у тебя 10к файлов в дире, то будет датафрейм с 10к колонок?
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Т.е. если у тебя 10к файлов в дире, то будет датафрейм с 10к колонок?
угу
источник

AA

Anton Alekseev in Moscow Spark
Я уже знаю что будет попа с перфомансом из-за кол столбцов
источник

PK

Pavel Klemenkov in Moscow Spark
Anton Alekseev
угу
Адище какое, а почему нельзя создать столбец path и туда пути писать? Как тебе помогает такая широкая таблица?
источник

AA

Anton Alekseev in Moscow Spark
Кластеризация пользователей нужна
источник

PK

Pavel Klemenkov in Moscow Spark
Anton Alekseev
Кластеризация пользователей нужна
Это не ответ на вопрос )
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Это не ответ на вопрос )
индексы - юзеры, колонки - пути, пересечение - магическое число) Нужно провести кластеризацию
источник

AA

Anton Alekseev in Moscow Spark
Для того же кминс нужен вектор
источник

AA

Anton Alekseev in Moscow Spark
к которому я опосля привожу
источник

AA

Anton Alekseev in Moscow Spark
Первоначально все так и было как вы написали. Но алгоритм это не переварит.
источник

PK

Pavel Klemenkov in Moscow Spark
Ну ты просто, ка бы, облегчаешь себе жизнь, чтоб попроще VectorAssembler вызывать? )
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Ну ты просто, ка бы, облегчаешь себе жизнь, чтоб попроще VectorAssembler вызывать? )
я уже поднимал эту тему. Решения тут я не получил) https://stackoverflow.com/questions/48880934/performance-decrease-for-huge-amount-of-columns-pyspark
источник

SK

Sergey Karpiy in Moscow Spark
Anton Вектор на словах, слова это пути...., пиши свой парсер в каунт векторайзер
источник