Size: a a a

R (язык программирования)

2020 October 13

БА

Байкулов Антон... in R (язык программирования)
Alexander Semenov
Не оффтопа ради, а reality check для: мне одному приходится в 2020 году отвечать на вопросы типа "А зачем вам данные и SQL, когда есть дашборды?".
Напомнило: Летят два крокодила, один зелёный другой на Север=)
источник

AS

Alexander Semenov in R (язык программирования)
Вот и я понимаю, что со стороны это наверняка звучит абсурдно, но это практически дословная фраза, которую я сегодня услышал. Ещё был вот такой шедевр: "По SQL непонятно, если что-то в данных поменялось, а по дашбордам понятно".
источник

AP

Anton Pysanka in R (язык программирования)
не одни, у крупных компаний в 2020 так же есть нежелание пускать аналитиков в БД, особенно если она рабочая, а не аналитическая и доступы выдают тем, кто с меньшей вероятностью нанесет вред
источник

AS

Alexander Semenov in R (язык программирования)
Да тут не про то, чтобы аналитиков в прод пускать, а про то, что сначала нужно подготовить нормальные данные для аналитики, а потом уже навешивать на них BI. А тут же парадигма другая: "Нужны данные? Заказывайте дашборд". К чему это приводит я тут уже писал неоднократно.

Я просто никак не могу свыкнуться с мыслью, что сейчас есть люди, которые считают, что дашборды первичны, а данные — вторичны.
источник

БА

Байкулов Антон... in R (язык программирования)
Anton Pysanka
не одни, у крупных компаний в 2020 так же есть нежелание пускать аналитиков в БД, особенно если она рабочая, а не аналитическая и доступы выдают тем, кто с меньшей вероятностью нанесет вред
Это точно
источник

A

Alexandr M in R (язык программирования)
Байкулов Антон
Reбята, а кто-нибудь обучал модели на работе со строками? Проставлять теги в зависимости от содержимого строки
Какие теги?
источник

БА

Байкулов Антон... in R (язык программирования)
Текстовые=)
источник

A

Alexandr M in R (язык программирования)
На каждое слово?
источник

IS

Ivan Struzhkov in R (язык программирования)
Alexander Semenov
Не оффтопа ради, а reality check для: мне одному приходится в 2020 году отвечать на вопросы типа "А зачем вам данные и SQL, когда есть дашборды?".
Вы с собеседниками называете разные вещи данными. Для них данные - это что то на дешборде.
Откуда берется дешборд им не инетерсно. )
источник

БА

Байкулов Антон... in R (язык программирования)
Alexandr M
Какие теги?
Это по сути отзывы. Человек пишет что-то вроде "ужасный ассортимент, жизнь - боль!"

Сотрудник вручную анализирует и пишет тег "Не нравится ассортимент"

Я хочу что-то типо:
1. Сканируем строки с уже проставленными отзывами.
2.Разбираем строки на слова и анализируем частоту слова, например, для тега "Не нравится ассортимент"
3. У нас получается, что комменты с таким тегом чаще всего имеют слова "ассортимент" и "говно"
4. Обучаем систему(хрен знает как это делается=)))
5. Проверяем точность модели на части данных, уже проверенных сотрудником. Если есть точность 90% берём на вооружение=)
источник

АК

Артём Клевцов... in R (язык программирования)
Байкулов Антон
Это по сути отзывы. Человек пишет что-то вроде "ужасный ассортимент, жизнь - боль!"

Сотрудник вручную анализирует и пишет тег "Не нравится ассортимент"

Я хочу что-то типо:
1. Сканируем строки с уже проставленными отзывами.
2.Разбираем строки на слова и анализируем частоту слова, например, для тега "Не нравится ассортимент"
3. У нас получается, что комменты с таким тегом чаще всего имеют слова "ассортимент" и "говно"
4. Обучаем систему(хрен знает как это делается=)))
5. Проверяем точность модели на части данных, уже проверенных сотрудником. Если есть точность 90% берём на вооружение=)
Если данные размечены, то классификация, которая будет пытаться угадать оценку поста сотрудником.
источник

JS

Jury Sergeev in R (язык программирования)
Alexander Semenov
В далёком 2014 пилили веб интерфейс к hierarchical LDA, который в реальном времени строил топики по Твитам и визуализировал их. Топики выделялись сами, без разметки. Выглядели правдоподобно.
А чем делался LDA?
источник

АК

Артём Клевцов... in R (язык программирования)
@AlexeySeleznev у себя на канале разметил сообщение о курсе по R от @aGricolaMZ. Думаю, не будет лишним перепостить сюда, т.к. курс рассчитан не только на лингвистов, но и всех интересующихся изучением науки о данных с использованием R. Насколько я помню, курс читается уже много лет и Георгий постоянно его дорабатывает.
источник

АК

Артём Клевцов... in R (язык программирования)
​​Открыта запись на бесплатный курс "R для лингвистов".

Автор: Георгий Мороз (@aGricolaMZ)

О курсе:

Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных.  В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященных продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.

Программа и другая информация о курсе доступна по ссылке.
источник

a

aGricolaMZ in R (язык программирования)
Вот про дорабатываем, это вы не правы... Спасибо!
источник

A

Alexandr M in R (язык программирования)
Байкулов Антон
Это по сути отзывы. Человек пишет что-то вроде "ужасный ассортимент, жизнь - боль!"

Сотрудник вручную анализирует и пишет тег "Не нравится ассортимент"

Я хочу что-то типо:
1. Сканируем строки с уже проставленными отзывами.
2.Разбираем строки на слова и анализируем частоту слова, например, для тега "Не нравится ассортимент"
3. У нас получается, что комменты с таким тегом чаще всего имеют слова "ассортимент" и "говно"
4. Обучаем систему(хрен знает как это делается=)))
5. Проверяем точность модели на части данных, уже проверенных сотрудником. Если есть точность 90% берём на вооружение=)
можно так https://simpletransformers.ai/docs/binary-classification/

но вам нужно использовать bert-base-multilingual-cased' - там есть пре-тренированная модель русского языка

PS: не R т к думаю в нем недоступны все эти пре-тренированные модели, да и наверное никто не делает эти биндинги
источник

AS

Alexander Semenov in R (язык программирования)
Jury Sergeev
А чем делался LDA?
Да вот не смог сходу нагуглить ту библиотеку. На пЕтоне была какая-то готовая.
источник

AS

Alexander Semenov in R (язык программирования)
Ivan Struzhkov
Вы с собеседниками называете разные вещи данными. Для них данные - это что то на дешборде.
Откуда берется дешборд им не инетерсно. )
А должно быть интересно, т.к. это слова человека, у которого я являюсь основным бизнес-заказчиком данных для аналитики. И он считает, что мне нужны дашборды, а не данные. Хотя я уже год твержу обратное.
источник

AS

Alexander Semenov in R (язык программирования)
Alexander Semenov
Да вот не смог сходу нагуглить ту библиотеку. На пЕтоне была какая-то готовая.
Судя по тому, что гуглится сейчас, иерархический LDA реализован в gensym, hlda и tomotopy. Но у меня эти названия don't ring a bell.
источник

JS

Jury Sergeev in R (язык программирования)
Артём Клевцов
@AlexeySeleznev у себя на канале разметил сообщение о курсе по R от @aGricolaMZ. Думаю, не будет лишним перепостить сюда, т.к. курс рассчитан не только на лингвистов, но и всех интересующихся изучением науки о данных с использованием R. Насколько я помню, курс читается уже много лет и Георгий постоянно его дорабатывает.
Я уже записался
источник