Телеграмм чат группы moscowspark страница 71

Всем привет! Подскажите, пожалуйста, есть ли какие-то удобные инструменты для мониторинга табличек в хайве (например, статистики по колонкам, количество строк и прочее)

источник

17:58пожаловаться #15

2018 November 13

Pavel Klemenkov in Moscow Spark

Gelana Khazeeva

Привет! Зависит от того, что тебе надо. Всякие базовые статистики можно самим хайвом собирать https://cwiki.apache.org/confluence/display/Hive/StatsDev. Они будут доступны в метасторе, а мониторить их можно чем угодно. Но тебя, видимо, data quality/data profiling style интересуют. Их довольно много, большая часть из тех, что я находил, встроены в какой-нибудь суровый энтерпрайз, а все остальные какие-то убогие. Хотя, относительно недавно появилась вот эта штучка http://griffin.incubator.apache.org/#

источник

00:32пожаловаться #16

Gelana Khazeeva in Moscow Spark

Спасибо большое!

источник

10:54пожаловаться #17

2018 November 19

Pavel Klemenkov in Moscow Spark

Привет! Такой вопрос. Юзаю pyspark sql, прочитал табличку из постргреса, закешировал ее, в UI вижу что в памяти 100% размер 4 мегабайта. Потом над этим датафреймом сделал преобразование (в том числе pandas_udf) закэшировал, в UI показывается, что закэшировано 10%, типа 400кб. Запускаю в локальном режиме для тестов, под драйвер выделено 30 гигов оперативы. И что за ерунда такая?

источник

16:43пожаловаться #18

2018 November 20

Anton Alekseev in Moscow Spark

Ребят, подскажите что-то не нагуглю никак. Я так понимаю обычный селект колонки датафрейме будет невалиден если колонка будет представлять путь к файлу, тоесть содержать обратный слеш?

источник

16:30пожаловаться #19

Anton Alekseev in Moscow Spark

cannot resolve '`\server.local\A`' given input columns

источник

16:31пожаловаться #20