Size: a a a

2018 November 12

GP

Grigory Pomadchin in Moscow Spark
как вариант можно конечно байнари читат и парсить нормальным парсером) тобишь свой датасорс запилить еще лучше будет))
источник

PK

Pavel Klemenkov in Moscow Spark
Заебись совет, Гриш ))
источник

GP

Grigory Pomadchin in Moscow Spark
Но да ты попробуй утф8 хардкодить + мултилайн
источник

PK

Pavel Klemenkov in Moscow Spark
При чем я с этим говном сталкиваюсь раз в полгода где-то, а воз и ныне там.
источник

GP

Grigory Pomadchin in Moscow Spark
помоему оно только так _может заработать_
источник

PK

Pavel Klemenkov in Moscow Spark
Так в пайспарке энкодинг utf по-умолчанию, а multiLine=True я передаю
источник

GP

Grigory Pomadchin in Moscow Spark
Pavel Klemenkov
Так в пайспарке энкодинг utf по-умолчанию, а multiLine=True я передаю
источник

PK

Pavel Klemenkov in Moscow Spark
Все, разобрался. Надо было просто так вызывать spark.read.csv("data.csv", escape='"', multiLine=True)
источник

GP

Grigory Pomadchin in Moscow Spark
а как вызывал?
источник

K

KrivdaTheTriewe in Moscow Spark
Grigory Pomadchin
как вариант можно конечно байнари читат и парсить нормальным парсером) тобишь свой датасорс запилить еще лучше будет))
Я знаю, что мои индусы форкнули цсв ридер из за похожей фигни
источник

K

KrivdaTheTriewe in Moscow Spark
Но не смержили его
источник

K

KrivdaTheTriewe in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Grigory Pomadchin
а как вызывал?
Без escape='"'
источник

AS

Andrey Smirnov in Moscow Spark
https://github.com/apache/spark/pull/16976
предлагают через option("wholeFile", true)
источник

GK

Gelana Khazeeva in Moscow Spark
Всем привет! Подскажите, пожалуйста, есть ли какие-то удобные инструменты для мониторинга табличек в хайве (например, статистики по колонкам, количество строк и прочее)
источник
2018 November 13

PK

Pavel Klemenkov in Moscow Spark
Gelana Khazeeva
Всем привет! Подскажите, пожалуйста, есть ли какие-то удобные инструменты для мониторинга табличек в хайве (например, статистики по колонкам, количество строк и прочее)
Привет! Зависит от того, что тебе надо. Всякие базовые статистики можно самим хайвом собирать https://cwiki.apache.org/confluence/display/Hive/StatsDev. Они будут доступны в метасторе, а мониторить их можно чем угодно. Но тебя, видимо, data quality/data profiling style интересуют. Их довольно много, большая часть из тех, что я находил, встроены в какой-нибудь суровый энтерпрайз, а все остальные какие-то убогие. Хотя, относительно недавно появилась вот эта штучка http://griffin.incubator.apache.org/#
источник

GK

Gelana Khazeeva in Moscow Spark
Спасибо большое!
источник
2018 November 19

PK

Pavel Klemenkov in Moscow Spark
Привет! Такой вопрос. Юзаю pyspark sql, прочитал табличку из постргреса, закешировал ее, в UI вижу что в памяти 100% размер 4 мегабайта. Потом над этим датафреймом сделал преобразование (в том числе pandas_udf) закэшировал, в UI показывается, что закэшировано 10%, типа 400кб. Запускаю в локальном режиме для тестов, под драйвер выделено 30 гигов оперативы. И что за ерунда такая?
источник
2018 November 20

AA

Anton Alekseev in Moscow Spark
Ребят, подскажите что-то не нагуглю никак. Я так понимаю обычный селект колонки датафрейме будет невалиден если колонка будет представлять путь к файлу, тоесть содержать обратный слеш?
источник

AA

Anton Alekseev in Moscow Spark
cannot resolve '`\server.local\A`' given input columns
источник