Size: a a a

R (язык программирования)

2020 August 29

БА

Байкулов Антон... in R (язык программирования)
Все верно. Толи за регистрируется, толи нет. 50/50
источник

PD

Pavel Demin in R (язык программирования)
Тут наверняка есть более опытные машинисты, но кажется auc = 50% это в принципе минимум. Значит модель раскидывает предикты поровну между истинно истинными и ложно истинными. Другими словами, модели вообще не удалось выявить какие-либо каузальности
источник

AS

Alexander Semenov in R (язык программирования)
Pavel Demin
Тут наверняка есть более опытные машинисты, но кажется auc = 50% это в принципе минимум. Значит модель раскидывает предикты поровну между истинно истинными и ложно истинными. Другими словами, модели вообще не удалось выявить какие-либо каузальности
Я знаю, как интерпретируется AUC. Мой вопрос в интерпретации такого результата в подобном контексте. Например, можно ли на основе этого результата утверждать, что UI/UX никак не влияют на решение пользователя о регистрации?
источник

AP

Anton Pysanka in R (язык программирования)
Alexander Semenov
Но на самом деле помогло. Взял название колонки из SQL, которым грузил файл, а в итоге на диске почему-то названий колонок нет =(. Заменил vod_name на V6.
при сохранении в .csv из SQL Studio не записываются названия колонок
источник

AS

Alexander Semenov in R (язык программирования)
Anton Pysanka
при сохранении в .csv из SQL Studio не записываются названия колонок
Я DBeaver использую и раньше такого поведения не замечал. Может потому, что раньше никогда не использовал возможность компрессии в *.zip
источник

IS

Ivan Struzhkov in R (язык программирования)
Alexander Semenov
Я знаю, как интерпретируется AUC. Мой вопрос в интерпретации такого результата в подобном контексте. Например, можно ли на основе этого результата утверждать, что UI/UX никак не влияют на решение пользователя о регистрации?
ну зависит от того что в модели. AUC в 50% может вознинкуть в следующих случаях

1. В напиленных фичах нет полезного сигнала
2. Напиленные фичи имеют разнонаправленные эффекты которые компенсируют друг друга
3. Есть не UX driven факторы (например демография пользователей ) которые так же взаимно друг друга компенсируют.

С этим надо разбираться. Вывод о невлиянии UI/UX преждевременный.
источник

AS

Alexander Semenov in R (язык программирования)
Спасибо. Поясню интерес к вопросу. Для того, чтобы "напилить фичей" под эту задачу, мне придётся отвлечь разработчиков от решения других задач, польза от которых более очевидна. Вот я и хочу с помощью данного "мысленного эксперимента" понять, что случится в крайнем случае, т.е. если модель не найдёт значимых различий.
источник

AS

Alexander Semenov in R (язык программирования)
Потратить ресурсы для того, чтобы отчитаться фразой: "Мы не смогли отличить пользователей, которые зарегистрируются и выделить факторы, которые на это влияют" — такой себе результат.
источник

IS

Ivan Struzhkov in R (язык программирования)
Это странный подход. Обычно в подобных задачах цель не осмыслить текущую ситуацию, а получить инструмент оценки изменений. Принесла ли фича денег в виде улучшения поведения пользователей на сайте.
источник

IS

Ivan Struzhkov in R (язык программирования)
Я думаю это в любом случае надо делать
источник

AS

Alexander Semenov in R (язык программирования)
Почему же странный? Есть поток пользователей на сайт/приложение. Кто-то из них регистрируется, кто-то нет. У нас есть данные о том, как они взаимодействовали с сайтом/приложением. Мне кажется логичным попытка понять по этим данным, чем отличаются те, кто зарегистрировался, от тех, кто нет.
источник

ГД

Григорий Демин... in R (язык программирования)
Alexander Semenov
Не помню, спрашивал или нет, поэтому, возможно, повторюсь. Предлагаю мысленный эксперимент на машинное обучение: у нас есть сайт/приложение и мы можем напилить фичей из логов по взаимодействиям пользователей с ним (листание страниц, клики по "товарам", пользование поиском). Также мы можем сделать "таргет": пользователь в итоге либо зарегистрировался либо нет.

Так вот вопрос: какой бы вывод вы сделали, если бы ваша модель на этих фичах по определению того, зарегистрируется пользователь или нет, вернула бы AUC ~ 50%?
Я бы искал ошибку в своих расчетах. Чтобы логи прям совсем не влияли на факт регистрации... Ну это их для невлияния надо как-то особенным образом готовить. Или что у вас с балансировкой классов?
источник

AS

Alexander Semenov in R (язык программирования)
Григорий Демин
Я бы искал ошибку в своих расчетах. Чтобы логи прям совсем не влияли на факт регистрации... Ну это их для невлияния надо как-то особенным образом готовить. Или что у вас с балансировкой классов?
За задачу ещё не брался. Решил сначала представить, что делать в случае "провала": AUC ~ 0.5
источник

AS

Alexander Semenov in R (язык программирования)
Григорий Демин
Я бы искал ошибку в своих расчетах. Чтобы логи прям совсем не влияли на факт регистрации... Ну это их для невлияния надо как-то особенным образом готовить. Или что у вас с балансировкой классов?
Пожалуй, начну с малого: закажу стату по типам устройств, чтобы выбрать то, у которого наиболее приемлемый баланс зарегистрировавшихся к прошедшим мимо.
источник

IS

Ivan Struzhkov in R (язык программирования)
Alexander Semenov
Почему же странный? Есть поток пользователей на сайт/приложение. Кто-то из них регистрируется, кто-то нет. У нас есть данные о том, как они взаимодействовали с сайтом/приложением. Мне кажется логичным попытка понять по этим данным, чем отличаются те, кто зарегистрировался, от тех, кто нет.
Странный - потому что не имея данных о пользовательском поведении сложно его улучшать. Вне зависимости от того смогли вы построить модель или нет на старте. Так что фича нужна

Ну так а при чем тут UX /UI ? есть те кто в этом UX /UI зарегестрировался, есть то кто не зарегистрировался. Одинаковый UX с разными резлультатами.

Грузить лог действий пользователя в лог регрессию (или аналогичную модель) - это не очень корректно.
Отвалившиеся проходят не полный путь. Возниакет куча корреляций вида "Если был на последнем шаге перед таргетом вероятность что зарегитрируется - высокая"

Тут что то вроде деревьев надо строить и смотреть какие  классы сценариев уводят пользователя и демографию накладывать
источник

ГД

Григорий Демин... in R (язык программирования)
Alexander Semenov
За задачу ещё не брался. Решил сначала представить, что делать в случае "провала": AUC ~ 0.5
Очень мало шансов для такого. Скорее всего у вас будет неплохой auc, но банальная модель. Из разряда "100 процентов зарегистрировпвшихся зашли на страницу регистрации"
источник

AS

Alexander Semenov in R (язык программирования)
Григорий Демин
Очень мало шансов для такого. Скорее всего у вас будет неплохой auc, но банальная модель. Из разряда "100 процентов зарегистрировпвшихся зашли на страницу регистрации"
Кстати, да. Над отмазкой для подобного исхода тоже надо подумать.
источник

AS

Alexander Semenov in R (язык программирования)
Ivan Struzhkov
Странный - потому что не имея данных о пользовательском поведении сложно его улучшать. Вне зависимости от того смогли вы построить модель или нет на старте. Так что фича нужна

Ну так а при чем тут UX /UI ? есть те кто в этом UX /UI зарегестрировался, есть то кто не зарегистрировался. Одинаковый UX с разными резлультатами.

Грузить лог действий пользователя в лог регрессию (или аналогичную модель) - это не очень корректно.
Отвалившиеся проходят не полный путь. Возниакет куча корреляций вида "Если был на последнем шаге перед таргетом вероятность что зарегитрируется - высокая"

Тут что то вроде деревьев надо строить и смотреть какие  классы сценариев уводят пользователя и демографию накладывать
UX я привел просто как пример. Я хочу понять, какой практически полезный и нетривиальный вывод может дать результат, при котором модель не справилась с классификацией.
источник

ГД

Григорий Демин... in R (язык программирования)
Имхо, думать заранее особого смысла нет. Лучше пробовать что-то самое простое, что вы можете сделать
источник

ГД

Григорий Демин... in R (язык программирования)
Либо думать на тему, какой вообще в этой модели смысл, даже если она будет содержательной. Какие бизнес-результаты вы хотите получить из предсказания?
источник