Я хочу понять каждый неправильный поворот в своих рассуждениях а не втихаря тырить чужие решения...
Ну давай в лицо. У тебя нет неправильных поворотов. Ты сразу пошел в противоположную сторону. Можно спорить о выборе между мерой Жаккара и косинусной похожести. Можно спорить о решении на нейросетях или о математическо статистическом подходе. Брать старого доброго наивного баеса или очередной модный китайский алгоритм. Но в твоём решении обсуждать нечего. Там нет решения. Там арифметика и подбор цифр. Ты пришёл с ножом на перестрелку.
Да я думаю что нейросети с частотным анализом были бы лучше. Наверное буду смотреть в ту сторону. Про Жаккара и косинусную похожесть спасибо. Баеса не очень понял. Есть ли примеры китайских алгоритмов?
Я хочу понять каждый неправильный поворот в своих рассуждениях а не втихаря тырить чужие решения...
Ещё добавлю. Вот есть к примеру проффесор. Он не умеет программировать . И считает на логарифмической линейке. Тебе, как программисту - он будет смешон. Но это не значит что он глупый. Просто нужны базовые знания. Черпать их надо из Вики и чужого кода. Не воровать, а разбираться. Начни с того что погугли кто такой Байес. Ни один математик не будет с тобой разговаривать если ты его не знаешь. Это типа рок звезды в статистике.
Гайз, а кто-то скорость свою на сервере с локалом сверял? у меня в три раза меньше, похоже, что все запускалось на одном трэде, соответственно я пошел гулять. хочется понять , это либа накосячила, или правда там не юзали 8 ядер
Вот сижу читаю) Есть на примете пара хороших книжек про статистический анализ?
Я бы не советовал грузить себя нудной теорией раньше времени... Да, какие-то вещи нужно знать, но знания нужно получать дозированно. Если говорить об инструментах, золотой стандарт среднего датасаентиста на сегодняшний день - это python/numpy/pandas/scikit-learn и что-нибудь из ML-фреймворков (PyTorch/Tensorflow/Keras). Лучше двигаться в этом направлении.
Я бы не советовал грузить себя нудной теорией раньше времени... Да, какие-то вещи нужно знать, но знания нужно получать дозированно. Если говорить об инструментах, золотой стандарт среднего датасаентиста на сегодняшний день - это python/numpy/pandas/scikit-learn и что-нибудь из ML-фреймворков (PyTorch/Tensorflow/Keras). Лучше двигаться в этом направлении.
Я бы не советовал грузить себя нудной теорией раньше времени... Да, какие-то вещи нужно знать, но знания нужно получать дозированно. Если говорить об инструментах, золотой стандарт среднего датасаентиста на сегодняшний день - это python/numpy/pandas/scikit-learn и что-нибудь из ML-фреймворков (PyTorch/Tensorflow/Keras). Лучше двигаться в этом направлении.
Я бы не советовал грузить себя нудной теорией раньше времени... Да, какие-то вещи нужно знать, но знания нужно получать дозированно. Если говорить об инструментах, золотой стандарт среднего датасаентиста на сегодняшний день - это python/numpy/pandas/scikit-learn и что-нибудь из ML-фреймворков (PyTorch/Tensorflow/Keras). Лучше двигаться в этом направлении.
Мне наоборот кажется теория более увлекательной, чем навык писать импорт пандас.