Size: a a a

Natural Language Processing

2020 September 10

FF

Futorio Franklin in Natural Language Processing
Или на правилах можно, если чеки какого-то стандартного вида
источник

VS

Valera Sarapas in Natural Language Processing
Ilya Kazakov
А лучше Mathew's Correlation Coefficient, он более суровый чем F1.
Спасибо. Попробую.
источник

A

Aragaer in Natural Language Processing
прямо сейчас задача решена путем того, что я питоном пытаюсь распарсить. Четыре разных парсера для четырех разных магазинов
источник

AX

Alex001 XX in Natural Language Processing
Так наверное лучше - нейросеть в этой эадаче явный перебор.. Да и yargy тоже наверное - данные в чеках неплохо структурированы проще регэкспами сдернуть. ..
источник

NA

Nikita Antonov in Natural Language Processing
Кажется, у тинькова есть сервис, который делает это
источник

NA

Nikita Antonov in Natural Language Processing
источник

A

Aragaer in Natural Language Processing
ну у меня скорее желание поэкспериментировать самостоятельно
источник

A

Aragaer in Natural Language Processing
вот допустим если я посимвольно читаю текст, то как делать токенизацию с выделением пунктуации?
источник

AS

Alex Surname in Natural Language Processing
возьми либу готовую
источник

A

Aragaer in Natural Language Processing
те, что я видел, опираются на какие-то словари огромного размера. Я поэтому и думаю сделать свое на основе посимвольных эмбеддингов.
источник

A

Aragaer in Natural Language Processing
Для классификатора вот я например использую flair
источник

AS

Alex Surname in Natural Language Processing
ну сложность с сокращениями например
источник

AS

Alex Surname in Natural Language Processing
точка это отдельный символ или часть сокращения?
источник

A

Aragaer in Natural Language Processing
ну да. То есть тут тоже делается тегирование по классам "разделитель", и BIO?
источник

AS

Alex Surname in Natural Language Processing
смотря что тебе нужно
источник

A

Aragaer in Natural Language Processing
мне нужно, чтобы я отдал строчку в сетку, а на выходе получил какой-то ответ, на основе которого смог бы разбить на токены
источник

AS

Alex Surname in Natural Language Processing
зачем сетка чтобы разбивать на токены? :)
источник

AS

Alex Surname in Natural Language Processing
возьми либу вообщем готовую, и будет тебе "сетка"
источник

A

Aragaer in Natural Language Processing
я знаю, что есть готовые либы
источник

A

Aragaer in Natural Language Processing
но мой вопрос звучит именно так - "а если бы я захотел с помощью сетки разбивать на токены, то какой мне надо тренить выходной результат". И ответ - BIO теги.
источник