Size: a a a

Аналитики Москвы

2019 October 22

v

v_sobolev in Аналитики Москвы
Мб там есть типовые решения под такоет
источник

NK

Natalia Kosinova in Аналитики Москвы
YA
Коллеги, привет!

У меня тут есть небольшой кусок данных и желание. Может кто сталкивался и скинет статейки или (в идеале) программные решения.
Есть 70 тыс обращений пользователей. В них есть определенные тезисы.  Хочется кластеризовать это все хотя бы с какой-то эффективностью.
Обьем примерно до 1 млн словоупотреблений.
Популярные ресурсы я уже немного смотрел.
Буду благодарен за ссылки или опыт.
Не совсем поняла, что ты хочешь сделать. Когорты найти по словам?
источник

Y

YA in Аналитики Москвы
Natalia Kosinova
Не совсем поняла, что ты хочешь сделать. Когорты найти по словам?
Да
источник

NK

Natalia Kosinova in Аналитики Москвы
YA
Да
Распознавание текста, хз я ничего такого не использовала, спроси в чатике продактов, мало ли
источник
2019 October 23

VB

Vasilii Burykin in Аналитики Москвы
YA
Коллеги, привет!

У меня тут есть небольшой кусок данных и желание. Может кто сталкивался и скинет статейки или (в идеале) программные решения.
Есть 70 тыс обращений пользователей. В них есть определенные тезисы.  Хочется кластеризовать это все хотя бы с какой-то эффективностью.
Обьем примерно до 1 млн словоупотреблений.
Популярные ресурсы я уже немного смотрел.
Буду благодарен за ссылки или опыт.
Не понятно что нужно в итоге
источник

VB

Vasilii Burykin in Аналитики Москвы
Как точно нужно кластеризировать и о каких тезисах ты говоришь
источник

Y

YA in Аналитики Москвы
Vasilii Burykin
Как точно нужно кластеризировать и о каких тезисах ты говоришь
среди тысяч запросов справок есть пожелания/требования улучшить функционал. кластеризовать - имею в виду выделить часто повторяющиеся фразы (не слова) или определить принадлежность обращения к определенной тематике
источник

ВА

Виталий Абросимов in Аналитики Москвы
Насколько я смог понять - человек хочет систематизировать кучу мелких текстов по определённым тематикам/когортам/тегам. Принципы разбивки не известны и, скорее всего, должны сформироваться динамически.

Как вариант - считать повторение слов между отзывами, отсекая предлоги и лишние слова. Далее руками убрать из тегов прочий мусор и наслаждаться связями тегов с отзывами. Способ костыльный, но скорее всего единственный (из быстрых).

Как вариант воспользоваться эластиком или сфинксом и попробовать там намутить поиск с неким лингвистическим уклоном. Но решения из коробки 99% нигде не будет
источник

ВА

Виталий Абросимов in Аналитики Москвы
Подобный функционал имеется у плей-консоли в Гугле. Работает отвратительно)
источник

v

v_sobolev in Аналитики Москвы
Виталий Абросимов
Насколько я смог понять - человек хочет систематизировать кучу мелких текстов по определённым тематикам/когортам/тегам. Принципы разбивки не известны и, скорее всего, должны сформироваться динамически.

Как вариант - считать повторение слов между отзывами, отсекая предлоги и лишние слова. Далее руками убрать из тегов прочий мусор и наслаждаться связями тегов с отзывами. Способ костыльный, но скорее всего единственный (из быстрых).

Как вариант воспользоваться эластиком или сфинксом и попробовать там намутить поиск с неким лингвистическим уклоном. Но решения из коробки 99% нигде не будет
кстати, норм идея
источник

ВА

Виталий Абросимов in Аналитики Москвы
Ну это самое явное. Вогнать в мускул все это и начинать сравнивать рекурсивно) проставить связь между общими словами и текстами
Потом вычищать ненужные совпадения

В итоге останутся теги и связи с текстами + появится категория без тегов
источник

A

Anna in Аналитики Москвы
👍
источник

Y

YA in Аналитики Москвы
Виталий Абросимов
Ну это самое явное. Вогнать в мускул все это и начинать сравнивать рекурсивно) проставить связь между общими словами и текстами
Потом вычищать ненужные совпадения

В итоге останутся теги и связи с текстами + появится категория без тегов
что-то типа этого я уже попробовал, учитывая, что объем данных маленький - это было просто сделать даже тупо экселем. подумал, что есть методы более "сформировавшиеся" и "умные"
источник

ВА

Виталий Абросимов in Аналитики Москвы
YA
что-то типа этого я уже попробовал, учитывая, что объем данных маленький - это было просто сделать даже тупо экселем. подумал, что есть методы более "сформировавшиеся" и "умные"
Не, готового не будет. Есть желание сделать нормальную реализацию - нужно сфинкс или эластик копать и экспериментировать. Сорян)

История из жизни. Как-то искали мы с прогерами некоторые готовые и бесплатные решения, ничего нормального не нашли и прогеры батхёртили, мол ничего нормального нету, все жадные козлы.
В итоге написали своё через месяц. Я и говорю ребятам - давайте поделимся с людьми, пусть пользуются. В ответ мне сказали:"мы что, дураки? Ещё бесплатно не выкладывали хорошие реализации!"

Вот такая история) Думаю, она объясняет многое
источник

Y

YA in Аналитики Москвы
Виталий Абросимов
Не, готового не будет. Есть желание сделать нормальную реализацию - нужно сфинкс или эластик копать и экспериментировать. Сорян)

История из жизни. Как-то искали мы с прогерами некоторые готовые и бесплатные решения, ничего нормального не нашли и прогеры батхёртили, мол ничего нормального нету, все жадные козлы.
В итоге написали своё через месяц. Я и говорю ребятам - давайте поделимся с людьми, пусть пользуются. В ответ мне сказали:"мы что, дураки? Ещё бесплатно не выкладывали хорошие реализации!"

Вот такая история) Думаю, она объясняет многое
спасибо большое за инфу, оч полезно.
а насчет истории - так всегда)))
источник

MR

Mikhail Romashov in Аналитики Москвы
Всем привет!
Админы, кажется пора почистить группу от мёртвых дух, уж очень много deleted accounts
источник

D

DaySandBox in Аналитики Москвы
Message from Mikhail Romashov deleted. Reason: new user and external link (?)
источник

MR

Mikhail Romashov in Аналитики Москвы
Блин, ссылка.. Попробуем так https:// ailev.livejournal. com/1479838. html
Отлично, сработало!
источник

АA

Анастасия Федоренко Anastasiya Fedorenko in Аналитики Москвы
Mikhail Romashov
Блин, ссылка.. Попробуем так https:// ailev.livejournal. com/1479838. html
Отлично, сработало!
А что там?
источник

MR

Mikhail Romashov in Аналитики Москвы
Anna
Так, голосуем, не стесняемся
Я так понимаю больше желающих обсудить тему системного мышления.
Вопрос: кто-нибудь проходил курс Леванчука или его книге читал?
источник