Телеграмм чат группы moscowspark страница 483

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

934 membersпожаловаться на группу

2020 December 03

MV

Mitya Volodin in Moscow Spark

Сюткин

И почем этот парсер обошёлся?))

Дорого. А главное неэффективно )))
Да нет, если без шуток - парсеры кода надо искать не под спарк, а под язык.

И уже писать свои дополнения в виде конечного автомата, который будет токены уже обрабатывать.

источник

16:56пожаловаться #1

ED

Evgenij Danilov in Moscow Spark

Не хочу писать руками 😭

источник

16:56пожаловаться #2

MV

Mitya Volodin in Moscow Spark

Главное, что даже если найдёте готовый, он вас скорей всего всё равно не устроит.

источник

16:56пожаловаться #3

ED

Evgenij Danilov in Moscow Spark

Главное, что даже если найдёте готовый, он вас скорей всего всё равно не устроит.

Это так, но доработать готовое решение мне видится более простым путём.

источник

16:58пожаловаться #4

С

Сюткин in Moscow Spark

Evgenij Danilov

Не хочу писать руками 😭

А почему не хочешь?

Интересная задача

источник

17:15пожаловаться #5

ED

Evgenij Danilov in Moscow Spark

Потому, что надо быстро 🙂

источник

17:21пожаловаться #6

M

Mi in Moscow Spark

Evgenij Danilov

Это так, но доработать готовое решение мне видится более простым путём.

Вот не сказал бы, вы пока поймёте где можно "встроиться", так проще своё написать с готового джава парсера

источник

22:32пожаловаться #7

M

Mi in Moscow Spark

Ещё сильно зависит от сложности Спарк джобы

источник

22:32пожаловаться #8

M

Mi in Moscow Spark

Но задача в целом не то чтобы тривиальная, обратная задача выглядела бы куда проще

источник

22:32пожаловаться #9

ED

Evgenij Danilov in Moscow Spark

Вот не сказал бы, вы пока поймёте где можно "встроиться", так проще своё написать с готового джава парсера

Просто когда я представляю поток багов при первом запуске, мне становится грустно.

источник

22:40пожаловаться #10

M

Mi in Moscow Spark

А вообще может просто прогнать через тот же Спарк этот код и из метаданных уже вытянуть что-то более готовое

источник

22:41пожаловаться #11

M

Mi in Moscow Spark

Не знаю возможно ли вообще так

источник

22:42пожаловаться #12

M

Mi in Moscow Spark

Но вдруг

источник

22:42пожаловаться #13

2020 December 04

ИК

Иван Калининский... in Moscow Spark

Всем привет!

Я написал простенький партишенер:

class MyPartitioner(n: Int) extends Partitioner {
override def numPartitions: Int = n
override def getPartition(key: Any): Int = key.asInstanceOf[Row].getAs[Int](PartField)
}

И так же просто его вызываю:

def repartition(df: DataFrame, n: Int)(implicit spark: SparkSession): DataFrame = {
val partitionedRDD = df
.rdd
.map(row => (row, ()))
.partitionBy(new MyPartitioner(n))
.map(_._1)
spark.createDataFrame(partitionedRDD, df.schema)
.drop(PartField)
}
//Поменял вызов .partitionBy()

Поле PartField с типом Int уже добавлено в датафрейм, и представляет собой точный номер партиции RDD. Эта фигня обеспечивает нужное разделение по партициям и конечным файлам, но работает примерно в два раза медленнее, чем простой df.repartition(n, col(PartField)). Но repartition работает по вычисленному Murmur3 (коллизии!) и в один файл уходит несколько партиций. Повышать n пробовал (это был предыдущий подход, уже больше года работает), но коллизии все равно возможны, и много пустых тасков не добавляет элегантности.

Отсюда два вопроса:
1. Что я делаю не так?
2. Как можно сделать чтобы Partitioner работал в два раза быстрее или DataFrame.repartition брал значение поля, не вычисляя хеш? С расширениями SparkSession могу повозиться, если есть какой-нибудь наводящий ресурс

источник

18:25пожаловаться #14

2020 December 06

ПФ

Паша Финкельштейн... in Moscow Spark

Переслано от Паша Финкельштейн...

Народ, нам очень не хватает трёх экспертов на смартдату - на три доклада. С нас билет на неё. задаче эксперта - задавать вопросы из чата и от себя и подстраховать разговором с ведущим если спикер почему-то выпадет из эфира. Супер-профессионалом быть не обязательно

источник

18:13пожаловаться #15

K

KrivdaTheTriewe in Moscow Spark

источник

18:38пожаловаться #16

2020 December 07

SM

Sergey M in Moscow Spark

Guys
Я как-то яростно туплю
Никак не могу вспомнить как написать что-то типо

df.where(pkBroadcastedArray.value.contains($"pk"))

т.е. взять из df только те записи чьи pk содержатся в array который broadcasted

наверно это как-то через udf можно сделать,
но я что-то забыл как просунуть column в udf
не подскажете?

источник

20:23пожаловаться #17

AA

Aleksandr Aleksandro... in Moscow Spark

Guys
Я как-то яростно туплю
Никак не могу вспомнить как написать что-то типо

df.where(pkBroadcastedArray.value.contains($"pk"))

т.е. взять из df только те записи чьи pk содержатся в array который broadcasted

наверно это как-то через udf можно сделать,
но я что-то забыл как просунуть column в udf
не подскажете?

Можно попробовать просто через $"pk".isin(...)

источник

20:39пожаловаться #18

SM

Sergey M in Moscow Spark

O
Спс
Хотя бы не выделяет красным)

источник

20:52пожаловаться #19

2020 December 09

PK

Pavel Klemenkov in Moscow Spark

MIT stealth startup looking for Spark developers to join our core team!
https://www.reddit.com/r/apachespark/comments/k9ljys/mit_stealth_startup_looking_for_spark_developers/?utm_medium=android_app&utm_source=share

MIT stealth startup looking for Spark developers to join our core...

We are a stealth mode, VC funded startup from MIT with a goal to accelerate distributed computing. We are looking for motivated Spark developers...

источник

16:34пожаловаться #20