Size: a a a

Natural Language Processing

2021 July 29

VL

Valery Lazarev in Natural Language Processing
Ну точно BPE надо взять и под себя переписать чуть-чуть
источник

VL

Valery Lazarev in Natural Language Processing
источник

VL

Valery Lazarev in Natural Language Processing
Вот тут с кодом прям, можно какие-то эвристики над значениями частотности написать и будет решение вашей задачи
источник

d

dePuff in Natural Language Processing
Нарезать на нграммы и оставить только высокочастотные )
источник

d

dePuff in Natural Language Processing
Более длинная "убивает" более короткую как велосипед
источник

VM

Victor Maslov in Natural Language Processing
вот я на эту граблю как раз и наступил ) потому что даже с treshold-ами "высокочастотности", когда очень много похожих названий, к настоящему слову приклеился мусор
$ cat topics_url.json | json_pp | grep bitcoin
     "bitcoin_p",
     "bitcoinf",
     "bitcoino",
     "tbitcoin",
     "bitcoin_b",
     "bitcoin_c",
     "bitcoin_f",
...
а bitcoin убился
источник

d

dePuff in Natural Language Processing
Второй раз пройтись по топу)
Это же всё равно разовая задача
источник

VM

Victor Maslov in Natural Language Processing
вот я не уверен, что от второго раза будет прок
treshold-ы опять от балды подбирать, и на выходе окажется какое-нить bitcoin_
ладно конкретно _ я-то могу уже руками отрезать в конце, но это лишь частный случай, а думаю, проблемы похожие будут повсюду
суть в том, что простой treshold частотности -- это пальцем в небо
источник

VM

Victor Maslov in Natural Language Processing
https://stackoverflow.com/q/59492039/322020
вот тут по сути дежавю
чел спрашивает тоже, что и я, и ему отвечают тоже, что предложил ты
но оно на практике не сработало )
источник

d

dePuff in Natural Language Processing
I will update my answer with code once I make something that works.
answered Jan 5 '20 at 20:59

А ты упорный... Простите
источник

VM

Victor Maslov in Natural Language Processing
думаю, мне надо вспомнить формулы из теории вероятности
по идее, если буква T встречается во всем тексте с вероятностью 2%, но после CA она встретилась 10 раз из 100, то можно сказать, насколько маловероятно, что это произошло случайно
и м.б. здесь окажется достаточно подобрать одно число, чтоб решать, где считать букву продолжением слова, а где нет
не очень уверен, правда, как скажется на эти числа наличие и величина ветвлений, например, CAT и CAR -- по идее они друг у друга вероятность отнимают
источник

PL

Pavel Lebedev in Natural Language Processing
добрый день! подскажите пожалуйста, есть ли публичные бесплатные сервисы, которые могут через API переводить с русского на английский отдельные слова и небольшие кусочки текста? google/yandex translate такое могут или есть что-то еще?
источник

A

Anton in Natural Language Processing
Есть возможность у себя сервис развернуть?
источник

PL

Pavel Lebedev in Natural Language Processing
в целом да
источник

PL

Pavel Lebedev in Natural Language Processing
но если можно без этого - лучше без этого. но есть.
источник

PL

Pavel Lebedev in Natural Language Processing
наверное можно веб формы яндекс/гугл переводчика сымитировать? или это нарушит какие-то соглашения?
источник

A

Anton in Natural Language Processing
Я делал для себя докер , чтобы переводить большие тексты в оффлайн https://github.com/Gorodecki/offline_gooddy
источник

PL

Pavel Lebedev in Natural Language Processing
спасибо
источник

SS

Sergey Shulga in Natural Language Processing
Вопрос, может быть глупый, но все же: при обучении NER, какие есть варианты поднять precision, если заказчик готов пожертвовать recall-ом всего пайпа?
источник

Е

Егорка in Natural Language Processing
В F мере поменять коэффициент beta
источник