Телеграмм чат группы natural_language

Так наверное лучше - нейросеть в этой эадаче явный перебор.. Да и yargy тоже наверное - данные в чеках неплохо структурированы проще регэкспами сдернуть. ..

источник

16:59пожаловаться #4

Nikita Antonov in Natural Language Processing

Кажется, у тинькова есть сервис, который делает это

источник

17:06пожаловаться #5

Nikita Antonov in Natural Language Processing

https://receiptnlp.tinkoff.ru/#/

receiptnlp.tinkoff.ru

Нормализатор товарной позиции из чека

Преобразуем название товара из строчки чека: разворачиваем сокращения, убираем артикулы и лишние символы. Определяем бренд и категорию товара в чеке

источник

17:06пожаловаться #6

Aragaer in Natural Language Processing

ну у меня скорее желание поэкспериментировать самостоятельно

источник

17:11пожаловаться #7

Aragaer in Natural Language Processing

вот допустим если я посимвольно читаю текст, то как делать токенизацию с выделением пунктуации?

источник

17:12пожаловаться #8

Alex Surname in Natural Language Processing

возьми либу готовую

источник

17:13пожаловаться #9

Aragaer in Natural Language Processing

те, что я видел, опираются на какие-то словари огромного размера. Я поэтому и думаю сделать свое на основе посимвольных эмбеддингов.

источник

17:15пожаловаться #10

Aragaer in Natural Language Processing

Для классификатора вот я например использую flair

источник

17:15пожаловаться #11

Alex Surname in Natural Language Processing

ну сложность с сокращениями например

источник

17:16пожаловаться #12

Alex Surname in Natural Language Processing

точка это отдельный символ или часть сокращения?

источник

17:16пожаловаться #13

Aragaer in Natural Language Processing

ну да. То есть тут тоже делается тегирование по классам "разделитель", и BIO?

источник

17:17пожаловаться #14

Alex Surname in Natural Language Processing

смотря что тебе нужно

источник

17:18пожаловаться #15

Aragaer in Natural Language Processing

мне нужно, чтобы я отдал строчку в сетку, а на выходе получил какой-то ответ, на основе которого смог бы разбить на токены

источник

17:19пожаловаться #16

Alex Surname in Natural Language Processing

зачем сетка чтобы разбивать на токены? :)

источник

17:19пожаловаться #17

Alex Surname in Natural Language Processing

возьми либу вообщем готовую, и будет тебе "сетка"

источник

17:19пожаловаться #18

Aragaer in Natural Language Processing

я знаю, что есть готовые либы

источник

17:20пожаловаться #19

Aragaer in Natural Language Processing

но мой вопрос звучит именно так - "а если бы я захотел с помощью сетки разбивать на токены, то какой мне надо тренить выходной результат". И ответ - BIO теги.

источник

17:21пожаловаться #20