Size: a a a

R language and Statistical data analysis

2020 May 12

A

Alexander in R language and Statistical data analysis
это правда, часто dplyr в описании подразумевает что-то из тайдиверс в целом
источник

IT

Inip Tyig in R language and Statistical data analysis
Артём Клевцов
Линтер должен быть в ГМ встроен, имхо.
а чего не комплятор? Серъезно, откуда эта демаркация: много данных для обработки отдать программе, а много текста для проверки пробелов/отступов и прочей красоты — пусть мозгом делают?

Многие программыне среды подкупают именно зрелым тулингом. Идея делает рефакторинги явистам, и не от того что они тупые. С го вообще все просто сделали: выдали в комплекте жесточайший форматтер, и тулинг тоже подвозят, стараются.
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Inip Tyig
а чего не комплятор? Серъезно, откуда эта демаркация: много данных для обработки отдать программе, а много текста для проверки пробелов/отступов и прочей красоты — пусть мозгом делают?

Многие программыне среды подкупают именно зрелым тулингом. Идея делает рефакторинги явистам, и не от того что они тупые. С го вообще все просто сделали: выдали в комплекте жесточайший форматтер, и тулинг тоже подвозят, стараются.
Я имел в виду, что код можно сразу писать аккуратно, а не отдавать на откуп автоматике, генерируя при этом нечитаемый для человека набор символов.
источник

IT

Inip Tyig in R language and Statistical data analysis
ох, это скользкая дорожка (: особенно когда речь идет о языках с реплом, где весь процесс-то на том и стоит, что попробовать — оценить — скопипастить в скрипт.
источник

IT

Inip Tyig in R language and Statistical data analysis
писать хорошо сразу можно в двух случаях: задача типовейшая-шаблонная или когда никто никогда не будет это дорабатывать/поддерживать, а просто нужно будет переписать.

Про последний пункт я предлагаю поверить мне на том основании, что были у меня отношения с перлом 5. Я сам был удивлен как быстро все становится чудовищно запутанным, даже с попытками ООПшных вывертов.
источник

S

Stan in R language and Statistical data analysis
Я как социолог недавно вышедший вообще угодил в ситуацию, когда из профессиональных инструментов был только Эксель и SPSS. И когда только появился первый и второй RMoscow, я заинтересовался R, и начал изучать его первым. Подкупило, что можно в стиле SPSS писать скрипты (около того, конечно) и легально грузить . sav для работы. Так я стал его учить. Потом был курс по Питону, и я начал его изучать. Я до сих пор плохо понимаю все эти полиморфизмы (хотя в теории понимаю) и боюсь лапши модулей и методов с аргументами. Чисто статистически я к SO/SE обращаюсь раза в 3 больше, чтобы понять работу Питона по конкре ной задаче, чем то же самое на R.

Питон долгое время пытаюсь выучить как базовый язык, потому что у него (якобы) сильное NLP. Правда, сейчас повзрослел, и теперь не склонен так считать. Но основное было попытаться адаптироваться к рынку труда, где даже социологические задачи уж очень хотели делать на Питоне.

Что сказать хочу: если начинали со статистических пакетов, на питон перейти крайне сложно. Если начинали статистику изучать через джавы и прочее, то конечно питон зайдет лучше. Сейчас пандас научился грузить . sav, но по-прежнему не могу разобраться в системе типов данных, чтобы получить факторы или номинальное представление. И сетевые анализы в этом Питоне можно сделать. Но вся система типов изначально не создавалась для этого, ООП пилился, чтобы плееры с калькуляторами делать. Я до сих пор не понимаю, как на нем стат анализ умудряются делать...
источник

S

Stan in R language and Statistical data analysis
Григорий Демин
Про pandas. Это же полный трындец. Любить такое - стокгольмский синдром в чистом виде
Я недавно пытался решить задачу: сделать выборку  данных по определённому признаку и так, чтобы потом можно было бы агрегировать. Я не справился, хотя в том же SPSS и R сделано было если не вчистую легко, то не так сложно. Особенно бесит система типов в пакете networkx, когда расчёт центральности графа — это вывод dict. Потом начинаешь его методами пытаться в список, потом в NumpyArray, чтобы тупо распределение сделать в matplotlib. Почему-то в R сразу матрицу желает, и далее plot() творит чудеса)))
источник

ГД

Григорий Демин... in R language and Statistical data analysis
Stan
Я как социолог недавно вышедший вообще угодил в ситуацию, когда из профессиональных инструментов был только Эксель и SPSS. И когда только появился первый и второй RMoscow, я заинтересовался R, и начал изучать его первым. Подкупило, что можно в стиле SPSS писать скрипты (около того, конечно) и легально грузить . sav для работы. Так я стал его учить. Потом был курс по Питону, и я начал его изучать. Я до сих пор плохо понимаю все эти полиморфизмы (хотя в теории понимаю) и боюсь лапши модулей и методов с аргументами. Чисто статистически я к SO/SE обращаюсь раза в 3 больше, чтобы понять работу Питона по конкре ной задаче, чем то же самое на R.

Питон долгое время пытаюсь выучить как базовый язык, потому что у него (якобы) сильное NLP. Правда, сейчас повзрослел, и теперь не склонен так считать. Но основное было попытаться адаптироваться к рынку труда, где даже социологические задачи уж очень хотели делать на Питоне.

Что сказать хочу: если начинали со статистических пакетов, на питон перейти крайне сложно. Если начинали статистику изучать через джавы и прочее, то конечно питон зайдет лучше. Сейчас пандас научился грузить . sav, но по-прежнему не могу разобраться в системе типов данных, чтобы получить факторы или номинальное представление. И сетевые анализы в этом Питоне можно сделать. Но вся система типов изначально не создавалась для этого, ООП пилился, чтобы плееры с калькуляторами делать. Я до сих пор не понимаю, как на нем стат анализ умудряются делать...
Интересно, а где социологические задачи на питоне пытаются делать? SPSS из социологии очень не скоро вытеснится, имхо
источник

AS

Alexander Semenov in R language and Statistical data analysis
Stan
Я недавно пытался решить задачу: сделать выборку  данных по определённому признаку и так, чтобы потом можно было бы агрегировать. Я не справился, хотя в том же SPSS и R сделано было если не вчистую легко, то не так сложно. Особенно бесит система типов в пакете networkx, когда расчёт центральности графа — это вывод dict. Потом начинаешь его методами пытаться в список, потом в NumpyArray, чтобы тупо распределение сделать в matplotlib. Почему-то в R сразу матрицу желает, и далее plot() творит чудеса)))
Один из корифеев SNA как-то написал статью, почему он переехал из R в NetworkX, но я счёл это старческим маразмом и не стал читать.
источник

IT

Inip Tyig in R language and Statistical data analysis
Alexander Semenov
Один из корифеев SNA как-то написал статью, почему он переехал из R в NetworkX, но я счёл это старческим маразмом и не стал читать.
Старческий маразм — считать что-либо о статье не читая ее.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Ну от "молодняка" я чаще слышал про NetworkX, что он слишком медленный.
источник

S

Stan in R language and Statistical data analysis
Григорий Демин
Интересно, а где социологические задачи на питоне пытаются делать? SPSS из социологии очень не скоро вытеснится, имхо
Сейчас пытаются, если говорить о бизнес поле. Ибо мол нам надо делать приложение, а не аналитику. И типо мы все на питоне ваяем. К сожалению историю слышу регулярно.
источник

S

Stan in R language and Statistical data analysis
И еще если это смотреть в части вакансий а хх.ру
источник

ГД

Григорий Демин... in R language and Statistical data analysis
Во всех исследовательских агентствах СПСС. Остальное, если по вакансиям, как плюс
источник

S

Stan in R language and Statistical data analysis
Alexander Semenov
Ну от "молодняка" я чаще слышал про NetworkX, что он слишком медленный.
Он убогий в том плане, что там Louvain отсутствует. А Ширван Ньюман в виде генератора сделан.  Когда я с этим познакомился — заныл первый раз и убежал вообще в UCINET/ORA
источник

S

Stan in R language and Statistical data analysis
Мне задачу пилить надо, а не код😂
источник

S

Stan in R language and Statistical data analysis
Он медленный на 100000 и выше
источник

S

Stan in R language and Statistical data analysis
По ребрам. У меня сетка на 300к нод весила 5 гигов. В RAM
источник

AS

Alexander Semenov in R language and Statistical data analysis
Кажется если я ещё лет через 5 вернусь в SNA, там по-прежнему кластеры будут через встроенный Louvain считать...
источник

AS

Alexander Semenov in R language and Statistical data analysis
Stan
По ребрам. У меня сетка на 300к нод весила 5 гигов. В RAM
Для таких задач есть graph-tool.
источник