Size: a a a

R (язык программирования)

2021 March 12

PU

Philipp Upravitelev in R (язык программирования)
а. это не наш вариант, к сожалению :(
источник

AP

Aleksandr Pidtykan in R (язык программирования)
Philipp Upravitelev
это англоязычный текст, так что там словарей больше должно быть
другое дело, я ни один не знаю %)
О так это вообще упрощает дело. Там есть специализированые словари для разной тематики
источник

БА

Байкулов Антон... in R (язык программирования)
Philipp Upravitelev
а. это не наш вариант, к сожалению :(
Алгоритм автотегирования тоже есть. Но я пока не могу про него ничего сказать, недавно запустили
источник

PU

Philipp Upravitelev in R (язык программирования)
Байкулов Антон
Алгоритм автотегирования тоже есть. Но я пока не могу про него ничего сказать, недавно запустили
о, интересно.
источник

A

Alexandr in R (язык программирования)
Philipp Upravitelev
уважаемые, кто-нибудь работал текстовыми отзывами в динамике?
грубо говоря, хочу понять, как со временем поменялись отзывы на продукт
так как оценки что-то падают в последнее время и хочется хотя бы так понять, что происходит
Вообще, есть stm модель, в которую можно в качестве ковариата задать дату, тогда можно увидеть, как меняется распространенность или даже содержание тем в зависимости от времени.

Пакет stm
источник

PU

Philipp Upravitelev in R (язык программирования)
Aleksandr Pidtykan
О так это вообще упрощает дело. Там есть специализированые словари для разной тематики
а можно пример?
у меня игра в гугл-сторе, народ в сторе ставит оценки и что-то пишет в комментарии
хочется проследить связь тем и прочего с оценками, и все это во временной динамике
источник

PU

Philipp Upravitelev in R (язык программирования)
Alexandr
Вообще, есть stm модель, в которую можно в качестве ковариата задать дату, тогда можно увидеть, как меняется распространенность или даже содержание тем в зависимости от времени.

Пакет stm
оу, очень круто звучит, кажется, надо тыкать
источник

A

Alexandr in R (язык программирования)
Я бы только чуть осторожнее использовал тематические модели вместе с tf idf, там есть некоторая проблема с тем, что tf idf неплохо показывает дискриминативные слова для документов, но если важна относительная частота тех или иных слов (напр., геймплей будет встречаться часто, но не везде), то tf idf может создать проблемы
источник

A

Alexandr in R (язык программирования)
По поводу словарей - оч не рекомендую, это уже давно не используемая практика.
источник

PU

Philipp Upravitelev in R (язык программирования)
спасибо!
источник

AP

Aleksandr Pidtykan in R (язык программирования)
Philipp Upravitelev
а можно пример?
у меня игра в гугл-сторе, народ в сторе ставит оценки и что-то пишет в комментарии
хочется проследить связь тем и прочего с оценками, и все это во временной динамике
Здесь можно попробовать вытянуть сущности: прилогательное + (точно не помню - существительное). Но проблема сленгов и вольного текста не отсящего к предмету, поэтому тематические модели трата времени. А так подсчет слов на окрас + n-грамма. Выйдет что-то типа "любовь" - положительное (или число в зависимости от словаря), "не любовь" - отрицательное. Вобще надо поперебирать словари, для начала они есть в пакете  тайдитекст
источник

ОЛ

Олег Логинов... in R (язык программирования)
Подскажите, пожалуйста, при конвертации отчета из rmarkdown в pptx картинка с графиком встает не в полный размер слайда и не очень хорошо все считывается. При этом в RStudio все отображается крупно и нормально видно.

Можно как-то расширить размер картинки в презентации, но при этом чтобы изображение не теряло качества (не растягивалось)
источник

IS

Ivan Struzhkov in R (язык программирования)
Philipp Upravitelev
уважаемые, кто-нибудь работал текстовыми отзывами в динамике?
грубо говоря, хочу понять, как со временем поменялись отзывы на продукт
так как оценки что-то падают в последнее время и хочется хотя бы так понять, что происходит
LDA, оценка тональности частотность
Это все в динамике.

Есть еще трюк с кластеризацией по растоянию Левинштейна (или дамерау левинтштейна)
источник

I

Igor in R (язык программирования)
Олег Логинов
Подскажите, пожалуйста, при конвертации отчета из rmarkdown в pptx картинка с графиком встает не в полный размер слайда и не очень хорошо все считывается. При этом в RStudio все отображается крупно и нормально видно.

Можно как-то расширить размер картинки в презентации, но при этом чтобы изображение не теряло качества (не растягивалось)
Можно использовать пакет officcer. Он позволяет взять шаблон и по нему вставить график. ggplot ставиться как нужно.
источник

ОЛ

Олег Логинов... in R (язык программирования)
Igor
Можно использовать пакет officcer. Он позволяет взять шаблон и по нему вставить график. ggplot ставиться как нужно.
Да, я его тоже подключаю. Надо будет тогда в нем получше разобраться, как вот выстроять ширину и высоту пропорционально
источник

ГД

Григорий Демин... in R (язык программирования)
Philipp Upravitelev
уважаемые, кто-нибудь работал текстовыми отзывами в динамике?
грубо говоря, хочу понять, как со временем поменялись отзывы на продукт
так как оценки что-то падают в последнее время и хочется хотя бы так понять, что происходит
А "в последнее время" - это дни или месяцы? Я бы сначала тупо попробовал: кросс таблицу средние tf-idf слов в разбивке по периодам и по оценкам. Будет огромная простыня, но скорее всего сразу что-то можно будет увидеть. Или графики топ 10 слов по tf-idf по времени по оценке
источник

I

Igor in R (язык программирования)
Олег Логинов
Да, я его тоже подключаю. Надо будет тогда в нем получше разобраться, как вот выстроять ширину и высоту пропорционально
В шаблоне задается положение и размер картинки. Дальше в него вставляется график. График занимает зявленное в шаблоне.
источник

PU

Philipp Upravitelev in R (язык программирования)
Григорий Демин
А "в последнее время" - это дни или месяцы? Я бы сначала тупо попробовал: кросс таблицу средние tf-idf слов в разбивке по периодам и по оценкам. Будет огромная простыня, но скорее всего сразу что-то можно будет увидеть. Или графики топ 10 слов по tf-idf по времени по оценке
это где-то с начала 2020 года
источник

PU

Philipp Upravitelev in R (язык программирования)
Григорий Демин
А "в последнее время" - это дни или месяцы? Я бы сначала тупо попробовал: кросс таблицу средние tf-idf слов в разбивке по периодам и по оценкам. Будет огромная простыня, но скорее всего сразу что-то можно будет увидеть. Или графики топ 10 слов по tf-idf по времени по оценке
>графики топ 10 слов по tf-idf по времени по оценке
да, я вот именно про такой вариант думал
источник

EP

Ed P in R (язык программирования)
Олег Логинов
Да, я его тоже подключаю. Надо будет тогда в нем получше разобраться, как вот выстроять ширину и высоту пропорционально
М.б. Вы картинке мало места выделяете? Я из примера, если честно, не понял в чем проблема. У меня иногда текст на оси Y резался, если высота графика была недостаточная
источник