Телеграмм чат группы moscowspark страница 73

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

1
«
…
‹
68
69
70
71
72
73
74
›
…
»

2018 November 20

SK

Sergey Karpiy in Moscow Spark

Не вижу смысла писать столько столбцов

источник

16:57пожаловаться #1

AA

Anton Alekseev in Moscow Spark

Anton Вектор на словах, слова это пути...., пиши свой парсер в каунт векторайзер

я по сути так и сделал через мап

источник

16:57пожаловаться #2

SK

Sergey Karpiy in Moscow Spark

Ну дык есть же готовый класс в спарке

источник

16:58пожаловаться #3

AA

Anton Alekseev in Moscow Spark

Не вижу смысла писать столько столбцов

Но сейчас мне такие данные прилетают, надо починять)

источник

16:58пожаловаться #4

SK

Sergey Karpiy in Moscow Spark

Хэш правда

источник

16:58пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

В общем, отвечая на твой вопрос, вот
df = spark.createDataFrame([[1], [2]], schema=["a.b"])
df["`a.b`"]
Column<b'a.b'>

источник

16:58пожаловаться #6

AA

Anton Alekseev in Moscow Spark

Ну дык есть же готовый класс в спарке

Можно ссылку? не понял о чем вы.

источник

16:59пожаловаться #7

SK

Sergey Karpiy in Moscow Spark

Anton Alekseev

Можно ссылку? не понял о чем вы.

Ну в смысле раньше вроде в спарке был только хэш векторайзер, сейчас вроде есть уже каунт векторайзер

источник

16:59пожаловаться #8

AA

Anton Alekseev in Moscow Spark

Pavel Klemenkov

В общем, отвечая на твой вопрос, вот
df = spark.createDataFrame([[1], [2]], schema=["a.b"])
df["`a.b`"]
Column<b'a.b'>

вообщем реплейсить слеш)

источник

17:00пожаловаться #9

SK

Sergey Karpiy in Moscow Spark

Anton Alekseev

вообщем реплейсить слеш)

В каунтвектррайзере есть встроенный парсер, его надо поменять на твой слеш

источник

17:01пожаловаться #10

AA

Anton Alekseev in Moscow Spark

В каунтвектррайзере есть встроенный парсер, его надо поменять на твой слеш

щас почитаем

источник

17:02пожаловаться #11

SK

Sergey Karpiy in Moscow Spark

Anton Alekseev

щас почитаем

В официальном доке пример со сплитом, ну тогда сплит по слешу или что там ещё

источник

17:02пожаловаться #12

AA

Anton Alekseev in Moscow Spark

В официальном доке пример со сплитом, ну тогда сплит по слешу или что там ещё

Ещё раз опишу структуру данных. Таблица где индекс это юзер, колонка это путь к файлу, пересечение какое-то число (ни из пути ни из юзера не получить его). Необходимо сперва препроцессинг, потом вектор ассемблер не нарушая порядки колонок (получим индекс юзер, и вектор в соответствии, итого 2 колонки), и это уже в ml модуль спарка для кластеризации и дальнейших телодвижений.

источник

17:07пожаловаться #13

AA

Anton Alekseev in Moscow Spark

так что каунтвекторайзер мне тут не поможет

источник

17:08пожаловаться #14

SK

Sergey Karpiy in Moscow Spark

А порядок зачем?

источник

17:08пожаловаться #15

PK

Pavel Klemenkov in Moscow Spark

Anton Alekseev

так что каунтвекторайзер мне тут не поможет

Поможет, если все файлики пользователя будут в одном столбце как строчка с разделителями хранится

источник

17:08пожаловаться #16

SK

Sergey Karpiy in Moscow Spark

Порядок колонок имеется в виду

источник

17:09пожаловаться #17

PK

Pavel Klemenkov in Moscow Spark

Тебе же по факту от этой шняги нужен бинарный признак, есть файл у пользователя или нет. Или ты по ним какую-то отдельную стату считаешь?

источник

17:09пожаловаться #18

AA

Anton Alekseev in Moscow Spark

А порядок зачем?

имеется ввиду один порядок для всех пользователей, а как отсортирован не важно

источник

17:10пожаловаться #19

SK

Sergey Karpiy in Moscow Spark

Ну тогда не вижу проблем сделать именно тк как Павел выше описал

источник

17:10пожаловаться #20

1
«
…
‹
68
69
70
71
72
73
74
›
…
»