Телеграмм чат группы bigdata

2020 November 05

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

взял 0.01 от датасета. Я в y_pred ожидал увидеть одномерный массив. Хотел classification_report распечатать

источник

16:48пожаловаться #1

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Чё-то вторая матрица подозрительно большая.
Судя по трейсбеку, там exog (входные фичи) умножаются на params (коэффициенты), и вторая матрица имеет размер (1080334, 2). Кажется, если в модель запихнуто столько коэффициентов, это ненормально, и проблема была ещё на этапе обучения - видимо, с содержанием или форматом обучающих данных.

источник

16:49пожаловаться #2

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Сергей Васильев

взял 0.01 от датасета. Я в y_pred ожидал увидеть одномерный массив. Хотел classification_report распечатать

Ну значит не то транспонировал

источник

16:49пожаловаться #3

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Evgenii Zheltonozhskii🇮🇱

Ну значит не то транспонировал

источник

16:50пожаловаться #4

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Сергей Васильев

Попробуй трейн

источник

16:52пожаловаться #5

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

В фромформула

источник

16:52пожаловаться #6

AB

Arcady Balandin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Библиотеку Jax в реальных проектах

Анонимный опрос

8%

Использую

92%

Не использую

Проголосовало: 12

источник

16:53пожаловаться #7

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Чё-то вторая матрица подозрительно большая.
Судя по трейсбеку, там exog (входные фичи) умножаются на params (коэффициенты), и вторая матрица имеет размер (1080334, 2). Кажется, если в модель запихнуто столько коэффициентов, это ненормально, и проблема была ещё на этапе обучения - видимо, с содержанием или форматом обучающих данных.

https://gist.github.com/RinnetenseiQ/bbb497be5646c2c91444f976327bea6f
вот код

Gist

MNLogit

MNLogit. GitHub Gist: instantly share code, notes, and snippets.

источник

16:55пожаловаться #8

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Переслано от @

В таком виде у меня пандасовский датафрейм

источник

16:56пожаловаться #9

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Чё-то вторая матрица подозрительно большая.
Судя по трейсбеку, там exog (входные фичи) умножаются на params (коэффициенты), и вторая матрица имеет размер (1080334, 2). Кажется, если в модель запихнуто столько коэффициентов, это ненормально, и проблема была ещё на этапе обучения - видимо, с содержанием или форматом обучающих данных.

вот так блин

источник

16:58пожаловаться #10

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Сергей Васильев

https://gist.github.com/RinnetenseiQ/bbb497be5646c2c91444f976327bea6f
вот код

Gist

MNLogit

MNLogit. GitHub Gist: instantly share code, notes, and snippets.

Гляди на документацию от метода predict: https://www.statsmodels.org/stable/generated/statsmodels.discrete.discrete_model.MNLogit.predict.html#statsmodels.discrete.discrete_model.MNLogit.predict
Он там первым аргументом принимает вовсе не матрицу с фичами, а какие-то params. Откуда они должны браться - вопрос к разработчикам statsmodels)

источник

17:00пожаловаться #11

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

А, понял

источник

17:01пожаловаться #12

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Гляди на документацию от метода predict: https://www.statsmodels.org/stable/generated/statsmodels.discrete.discrete_model.MNLogit.predict.html#statsmodels.discrete.discrete_model.MNLogit.predict
Он там первым аргументом принимает вовсе не матрицу с фичами, а какие-то params. Откуда они должны браться - вопрос к разработчикам statsmodels)

прикол в том, что я так уже делал, но на простом примере

источник

17:01пожаловаться #13

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Прикол в том, что метод predict надо вызывать не у model, а у объекта, который возвращает её метод fit!
Вот минимальный пример

import pandas as pd
from statsmodels.discrete.discrete_model import MNLogit
df = pd.DataFrame({'x': [1,2,3,4,5,6,7,8,9], 'y': [1,2,3,1,2,3,1,2,3]})
model = MNLogit.from_formula('y~x', df)
result = model.fit()
result.predict(df)

источник

17:02пожаловаться #14

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Прикол в том, что метод predict надо вызывать не у model, а у объекта, который возвращает её метод fit!
Вот минимальный пример

import pandas as pd
from statsmodels.discrete.discrete_model import MNLogit
df = pd.DataFrame({'x': [1,2,3,4,5,6,7,8,9], 'y': [1,2,3,1,2,3,1,2,3]})
model = MNLogit.from_formula('y~x', df)
result = model.fit()
result.predict(df)

крыша совсем едет

источник

17:06пожаловаться #15

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Прикол в том, что метод predict надо вызывать не у model, а у объекта, который возвращает её метод fit!
Вот минимальный пример

import pandas as pd
from statsmodels.discrete.discrete_model import MNLogit
df = pd.DataFrame({'x': [1,2,3,4,5,6,7,8,9], 'y': [1,2,3,1,2,3,1,2,3]})
model = MNLogit.from_formula('y~x', df)
result = model.fit()
result.predict(df)

уже что то. Блин, теперь как classification_report посчитать. Какой то max взять что ли?

источник

17:10пожаловаться #16

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Сергей Васильев

уже что то. Блин, теперь как classification_report посчитать. Какой то max взять что ли?

Да, бери y_pred.idxmax(axis=1), чтобы получить порядковый номер самого вероятного класса.

источник

17:11пожаловаться #17

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Да, бери y_pred.idxmax(axis=1), чтобы получить порядковый номер самого вероятного класса.

print(classification_report(y_pred= y_pred.max(axis=1), y_true=test["PKT_CLASS"]))
такая конструкция не помогла

источник

17:13пожаловаться #18

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Да, бери y_pred.idxmax(axis=1), чтобы получить порядковый номер самого вероятного класса.

idxmax, я поправил

источник

17:14пожаловаться #19

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Чувак, ты вообще сам понимаешь, что кодишь?)

источник

17:14пожаловаться #20