Size: a a a

2019 February 24

AM

Artem Muravlev in Moscow Spark
Ребят, помогите начинающему в Спарке) Как можно отдебажить приложение написанное на java. Spark на удаленном сервере. Использую Idea
источник

ЕГ

Евгений Глотов... in Moscow Spark
дебажить спарк - затея очень сложная
источник

ЕГ

Евгений Глотов... in Moscow Spark
проще всего на каждый промежуточный этап навесить какой-нибудь .count или .limit(10).show() и посмотреть, что вообще выдаёт
источник

ЕГ

Евгений Глотов... in Moscow Spark
потому что когда это на 100 компах запускается, это отдебажить в принципе невозможно
источник

AM

Artem Muravlev in Moscow Spark
ага, спасибо за совет
источник

AS

Andrey Smirnov in Moscow Spark
как вариант разбить на шаги и прогонять их в zepplelin, а так только логи писать, брекпоинт не поставишь :)
источник

t

tenKe in Moscow Spark
а потом еще выяснять почему упал зеплин
источник

t

tenKe in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Почему не подебажить тот же код в локальном режиме? Понятно, что проблемы при масштабировании не потестишь, но бизнес-логику вполне.
источник

ЕГ

Евгений Глотов... in Moscow Spark
очень много проблем бывает именно в данных, локальный выгрузил красивый кусочек, на нём работает, а на деле всё плохо...
источник

ЕГ

Евгений Глотов... in Moscow Spark
local[1] ?
источник

pk

pavel kovtun in Moscow Spark
выкачать данные на которых падает и их локально отдебажить
источник

ЕГ

Евгений Глотов... in Moscow Spark
В 99% случаев оно не падает)
источник

ЕГ

Евгений Глотов... in Moscow Spark
А вылезает какой-нибудь null, или вообще сумма например не сходится)
источник

K

KrivdaTheTriewe in Moscow Spark
семпл данных порандомней
источник
2019 February 25

АЖ

Андрей Жуков... in Moscow Spark
Главное,  чтоб кокойнить коллектлист потом не попытался склеить полтаблицы
источник

AM

Artem Muravlev in Moscow Spark
Проблемненько, но решил) Главное теперь определить на больших данных что вывод у меня правильный😆.

Кто сталкивался с кластеризацией? Я так понимаю по докам мне необходимо MLib использовать. Сама задача состоит в том чтобы кластеризовать группу предложений по словам.  Если какое то слово совпадает, то мы обединяем предложения в группу.

Например:

Ввод-> "Новая машина купить","купить самолет","Новая стиралка","Чудесная погода","Погода сегодня"

Вывод->
{"Новая машина купить","купить самолет","Новая стиралка"}
,{"Чудесная погода","Погода сегодня"}
источник

AP

Alexander Piminov in Moscow Spark
Artem Muravlev
Проблемненько, но решил) Главное теперь определить на больших данных что вывод у меня правильный😆.

Кто сталкивался с кластеризацией? Я так понимаю по докам мне необходимо MLib использовать. Сама задача состоит в том чтобы кластеризовать группу предложений по словам.  Если какое то слово совпадает, то мы обединяем предложения в группу.

Например:

Ввод-> "Новая машина купить","купить самолет","Новая стиралка","Чудесная погода","Погода сегодня"

Вывод->
{"Новая машина купить","купить самолет","Новая стиралка"}
,{"Чудесная погода","Погода сегодня"}
Если тебе нужно просто объединить фразы по совпадению какого-то слова, то из MLLib тебе может быть нужен от силы Tokenizer (хотя и тут вполне будет просто split), а в остальном это просто преобразованиями решается.
источник

AM

Artem Muravlev in Moscow Spark
Можно ли как то сделать join 2-ух Rdd по такому принципу.

Rdd1:
{"key":"id1","value"Hello"},
{"key":"id2","value" world!"}

Rdd2:
{{"key":"id1","id1,id2"},
{"key":"id2","id1,id2"}}

RddResult:
{"key":"id1","value"Hello world!"},{"key":"id2","value"Hello world!"}
источник

AM

Artem Muravlev in Moscow Spark
ага, спасибо!
источник