Size: a a a

Natural Language Processing

2021 July 28

VM

Victor Maslov in Natural Language Processing
а если там бывает больше одной цифры, значит, сначала находим один морфологический компонент, а потом к нему подтягиваем остальные, которые похожи по вертикальным координатам
источник

D

Dmitriy in Natural Language Processing
это ячейка таблицы
можно и отквадратить ))
квадратный  распознает ?
источник

D

Dmitriy in Natural Language Processing
остальные ячейки  все ок распознает
есть некоторые вопросы где буквы с границей ячейки  пересекаются но  подготовкой изображения  решается  
а вот Одиночные цифры в ячейке ни в какую,
при  это таких же размеров в тексте  цифры  без проблем  распознаются
источник

SS

Sergey Shulga in Natural Language Processing
Кажется, вопрос не в тот чат. В ods идите, там прекрасный тематический чат есть.
источник

A

Alexander in Natural Language Processing
Коллеги, я правильно понимаю, что при пакетной нормализации на стадии обучения мы считаем среднее и отклонение по каждому батчу, а при прогнозировании используем среднее всех средних которые попались нам при обучении?
источник

D

Dmitriy in Natural Language Processing
вы модератор?
источник

VA

Vitaly Akhmadiev in Natural Language Processing
Можно попробовать наборы шрифтов подобрать, сделать эталонные изображения и потом силами opencv сверять по шаблонам

Мы так значек номера искали
источник

VA

Vitaly Akhmadiev in Natural Language Processing
И oem 0 уже пробовали?
Для него надо tessdata legasy скачать, чтобы работал нормально
источник
2021 July 29

OS

Oxana Steba in Natural Language Processing
Функция zip подробнее

Разберемся как работает функция zip и где еще ее можно применять. Функция без с одним аргументом вернет собранные элементы, по одному в каждом. Чтобы увидеть внутренности объекта преобразуем его в list.

Полезно использовать, когда нужно собрать несколько кортежей или списков.
источник

d

dePuff in Natural Language Processing
Мдя
Это как-то основы и без примера как раззиповать - незачёт
источник

d

dePuff in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @Jhldm кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@dePuff, @dzhkn42, @matadorvirtuoz, @Nikitini, @alexkuk
При поддержке Золота Бородача
источник

VM

Victor Maslov in Natural Language Processing
есть что-нить фундаментальное для почитать, поискать идеи на тему вычленения "значимых" подстрок из массива строк?

например, есть строки типа:

catsAreFunny
cats_are_liquid
i_love_cats
bestcatsininternet

и, скажем, идея такая, что начинаем с какой-нить буквы и оттягиваемся от нее влево-вправо, скажем, от "ca" тянемся вправо, и куда ни погляди, после него всегда (или достаточно часто) идет "t" -- значит добавляем "cat" значимости, а у "ca" значимость отнимаем, т.к. это вероятно не полное слово
потом тянем дальше, получаем cats, а потом справа и слева от cats уже довольно рандомные буквы, поэтому на этом останавливаемся и делаем вывод -- "есть такое значимое слово cats"
источник

VL

Valery Lazarev in Natural Language Processing
А bpe не похожую штуку делает, может в ту сторону посмотреть?
источник

VM

Victor Maslov in Natural Language Processing
похоже
но оно до бесконечности всякие совпадения ищет, а мне бы вот эти эвристики, грани, которые укажут, что вот так выглядят начала слова, а вот так концы, и что "вот какая-то буква после cats встречается часто, но недостаточно для того, чтоб считать ее продолжением"
источник

d

dePuff in Natural Language Processing
Из любой затюненой на задачу модельки можно вытянуть с подсветочкой значимых кусочков по которому модель приняла решение
Не то?
источник

VM

Victor Maslov in Natural Language Processing
мне нейросети не нужны
источник

d

dePuff in Natural Language Processing
Там из чего угодно как из чёрного ящика вытягивается.

Подаётся на вход последовательность с вырезанным фрагментом и по изменению предсказания определяется значимость
источник

d

dePuff in Natural Language Processing
Мне показалось, что значимость она для конкретной задачи только сцществует.
Мог не так понять идею
источник

VM

Victor Maslov in Natural Language Processing
массив на входе -- это короткие URL-френдли названия, которые для своих комьюнити люди придумывают из букв, цифр, символа подчеркивания и пр., скажем, сабреддиты, каналы в тг, группы в вк, каналы на ютубе и т.д.
т.е. они состоят из осмысленных слов, соединенных как угодно, обычно просто конкатенацией, и хочется автоматически выделить все популярные "темы" из десятков тысяч таких строк
источник