Size: a a a

AI / Искусственный Интеллект

2020 May 21

AF

Andrew Fa in AI / Искусственный Интеллект
A. K.
А где здесь ИИ?
Сколько строк в списке всех закупок?
крайний раз задачу пытались реализовать кластеризацией по названию в закупке, но это не привело ни к какому вменяемому результату, потому что закупки именуют кто во что горазд
источник

G

Group Butler in AI / Искусственный Интеллект
Добро пожаловать!

Правила чата:
1. После вступления, расскажите о себе с тегом #aboutme. Ваш бэкграунд, над чем работали или размышляли последнее время, ваши идеи, планы.
2. Видите спам или сомнительное сообщение - ответьте на него в чате с текстом "@banofbot" и бот начнет голосование за кик участника и удаление этого сообщения.

Спасибо! :)
источник

GS

Gleb Sidora in AI / Искусственный Интеллект
Выглядит как задача на document retrieval
источник

AK

A. K. in AI / Искусственный Интеллект
Andrew Fa
крайний раз задачу пытались реализовать кластеризацией по названию в закупке, но это не привело ни к какому вменяемому результату, потому что закупки именуют кто во что горазд
Т.е. строки не имеют одинаковой структуры?
Типа номер, название, артикул, характеристика 1, характкристика2, цена, и т.д.
Или имеют?
источник

D(

David (ddale) Dale in AI / Искусственный Интеллект
Andrew Fa
Всем привет. Кто может помочь с поиском решения не самой тривиальной задачи по аналитике закупок? Готов совместно реализовывать(есть конкретный заказчик).
Суть простая - нужно найти среднюю взвешенную цену для конкретного товара в закупках. Звучит просто, но весь нюанс в данных - для начала нужно выделить товары/услуги в списке всех закупок. Необходимо найти решение, которое позволит автоматизировать поиск средней взв. цены к примеру,  только для электрических пневмозаклепочников, не учитывая аккумуляторные заклепочники, детали для них, запчасти или сами заклепки.
Кажется, без учителя никакой ИИ не сможет нормально разобраться, какие две текстовые строки являются названием одного и того же товара, какие - разными.
Нужно сажать людей генерировать разметку.
Потом на основе этой разметки можно обучить что-то вроде NER - находить в тексте атрибуты товаров и по их сравнению уже товары считать одинаковыми или разными.
источник

AF

Andrew Fa in AI / Искусственный Интеллект
A. K.
Т.е. строки не имеют одинаковой структуры?
Типа номер, название, артикул, характеристика 1, характкристика2, цена, и т.д.
Или имеют?
нет, в этом то вся и проблема. Есть классификация по окпд2, но она очень часто сильно верхнеуровневая, и к примеру в категорию пластиковые канцелярские пишущие принадлежности могут попасть автоматические карандаши и гелевые ручки и и шариковые ручки.
источник

AF

Andrew Fa in AI / Искусственный Интеллект
David (ddale) Dale
Кажется, без учителя никакой ИИ не сможет нормально разобраться, какие две текстовые строки являются названием одного и того же товара, какие - разными.
Нужно сажать людей генерировать разметку.
Потом на основе этой разметки можно обучить что-то вроде NER - находить в тексте атрибуты товаров и по их сравнению уже товары считать одинаковыми или разными.
да, эту мысль тоже прорабатываю, чтобы разметить данные, но тут возникает вопрос глубины категоризации - ручка гелевая и ручка шариковая это все еще одна категория, или две разные.
источник

D(

David (ddale) Dale in AI / Искусственный Интеллект
Ну и в дополнение к выделению атрибутов придётся онтологию какую-то писать, чтобы понимать, насколько не-равные атрибуты на самом деле далеки друг от друга.
источник

D(

David (ddale) Dale in AI / Искусственный Интеллект
Andrew Fa
да, эту мысль тоже прорабатываю, чтобы разметить данные, но тут возникает вопрос глубины категоризации - ручка гелевая и ручка шариковая это все еще одна категория, или две разные.
Это уж точно эксперты-люди решать должны
источник

AK

A. K. in AI / Искусственный Интеллект
David (ddale) Dale
Кажется, без учителя никакой ИИ не сможет нормально разобраться, какие две текстовые строки являются названием одного и того же товара, какие - разными.
Нужно сажать людей генерировать разметку.
Потом на основе этой разметки можно обучить что-то вроде NER - находить в тексте атрибуты товаров и по их сравнению уже товары считать одинаковыми или разными.
Поддерживаю. Парсинг (возможно с нечётким поиском), затем разметка ручками.
источник

AF

Andrew Fa in AI / Искусственный Интеллект
David (ddale) Dale
Ну и в дополнение к выделению атрибутов придётся онтологию какую-то писать, чтобы понимать, насколько не-равные атрибуты на самом деле далеки друг от друга.
тут нюанс в том, что содержание закупки(наименование и описание) зачастую может быть очень разрозненным, и две одинаковые закупки могут быть описаны совершенно по разному - кто-то закупает принтеры, а кто-то МФУ, но нужно им одно и тоже. Ну так, если грубо. Но вашу мысль да, всецело разделяю, хотелось узнать, какие еще могут быть пути и есть ли они
источник

AK

A. K. in AI / Искусственный Интеллект
Andrew Fa
нет, в этом то вся и проблема. Есть классификация по окпд2, но она очень часто сильно верхнеуровневая, и к примеру в категорию пластиковые канцелярские пишущие принадлежности могут попасть автоматические карандаши и гелевые ручки и и шариковые ручки.
Парсить, парсить и парсить.
Есть мнение, что ИИ всё равно не даст однозначной идентификации того или иного товара и не отсеет двойников, по разному описанных.
источник

🌌

🌌Na🌃CHT in AI / Искусственный Интеллект
A. K.
Парсить, парсить и парсить.
Есть мнение, что ИИ всё равно не даст однозначной идентификации того или иного товара и не отсеет двойников, по разному описанных.
+1
источник

AF

Andrew Fa in AI / Искусственный Интеллект
A. K.
Парсить, парсить и парсить.
Есть мнение, что ИИ всё равно не даст однозначной идентификации того или иного товара и не отсеет двойников, по разному описанных.
ну пока самая жесткая идея состоит в том, чтобы взять все данные и завести для каждого общие уникальные флаги/параметры. То есть именно разметить до какого-то удобоваримого состояния
источник

🌌

🌌Na🌃CHT in AI / Искусственный Интеллект
Нам бы на данные нормально посмотреть для начала ;) все равно будут паттерны поведения клиентов в отрасли, их и надо формулировать.
источник

AK

A. K. in AI / Искусственный Интеллект
Andrew Fa
ну пока самая жесткая идея состоит в том, чтобы взять все данные и завести для каждого общие уникальные флаги/параметры. То есть именно разметить до какого-то удобоваримого состояния
Ну я именно об этом.
ИИ только ещё больше перемешает эту кашу.
источник

🌌

🌌Na🌃CHT in AI / Искусственный Интеллект
+1, это парсинг и аналитика, не ИИ.
источник

AF

Andrew Fa in AI / Искусственный Интеллект
🌌Na🌃CHT
Нам бы на данные нормально посмотреть для начала ;) все равно будут паттерны поведения клиентов в отрасли, их и надо формулировать.
завтра утром постараюсь выудить csv какое
источник

AK

A. K. in AI / Искусственный Интеллект
🌌Na🌃CHT
Нам бы на данные нормально посмотреть для начала ;) все равно будут паттерны поведения клиентов в отрасли, их и надо формулировать.
Агга.
Я бы посмотрел структуру исходных данных, скажем, тысячу строк.
И задал бы вопрос о бюджете.
Что-то мне подсказывает, что бОльшую часть работы можно сделать старым дедовским  грепом, седом и авк. Потом разметка.
источник

🌌

🌌Na🌃CHT in AI / Искусственный Интеллект
https://ru.coursera.org/learn/mathematics-and-python?specialization=machine-learning-data-analysis#syllabus
Неделя 3, там был интересный пример анализа текста: заставить код понимать, где слово cat означает кошку, а где - команду в терминале linux.
Вспомнилось, потому что там и рекомендовали этот чат.
источник