Size: a a a

Natural Language Processing

2020 December 28

АБ

Александр Бордюг... in Natural Language Processing
как я понимаю, yargy с регуляркой не дружит, и такое правило мне ничего не найдет?  RULES = rule(r'\w+?', type('LATIN'))
источник

A

Anton in Natural Language Processing
Natalia
ну во-первых, это вообще сложновато оценить, потому что зависит от того, на каких данных проверяется
во-вторых, смотрите model performance везде, где это оговорено

у SpaCy я не нашла циферок, вижу только UAS-LAS, но вроде должно быть ок, у Stanza и UDPipe всё расписано, выбираете банально лучшую модель (обычно зависит от объёма и репрезентативности трибанка, на котором тренировали)
Хорошо, посмотрю обязательно
источник

AK

Alexander Kukushkin in Natural Language Processing
Александр Бордюг
как я понимаю, yargy с регуляркой не дружит, и такое правило мне ничего не найдет?  RULES = rule(r'\w+?', type('LATIN'))
Можно завернуть регулярку в предикат custom https://nbviewer.jupyter.org/github/natasha/yargy/blob/master/docs/ref.ipynb#predicates.custom.
источник

АБ

Александр Бордюг... in Natural Language Processing
немного не понятно, как это работает
источник

АБ

Александр Бордюг... in Natural Language Processing
просто custom(r'\w+?') выдает ошибку
источник

AK

Alexander Kukushkin in Natural Language Processing
Александр Бордюг
немного не понятно, как это работает
А что именно непонятно, задайте вопрос. В custom передаем функцию предикат, это может быть любая функция, в том числе применение регулярного выражения. По смысле кстати не очень понятно что значит \w+, вам нужно пометчить всё кроме пунктуации?
источник

АБ

Александр Бордюг... in Natural Language Processing
мне нужно помечать из текста слово на иностранном языке и слово, стоящее перед ним. Я для этого создал такое правило rule(custom(r'\w+?'), type('LATIN')), но пока оно мне выдает лишь ошибку. Вот поэтому сижу и разбираюсь, что не так
источник

AK

Alexander Kukushkin in Natural Language Processing
1. У кириллических слов тоже есть type, кажется RU, почему бы не сделать что-то типа rule(type(RU), type(LATIN))
2. custom принимает функцию, r'\w+?' строка
источник

AS

Alex Surname in Natural Language Processing
добрый день. возможно ли имея английский текст выданный гугл транслейтом узнать оригинальный язык? речь идет не о Гугл АПИ, а класификации. подобно тому как по тексту определяют авторство или родной язык автора
источник

N

Natalia in Natural Language Processing
ох, даже в чистом виде language identification иногда та ещё задачка, а вы так хитро хотите :)
источник

N

Natalia in Natural Language Processing
ну и артефакты перевода далеко не везде торчат
источник

AS

Alex Surname in Natural Language Processing
я понимаю что о точности и полноте близкой к 100% речи не идет. вопрос: в какую сторону лучше смотреть для решения задачки?
источник

N

Natalia in Natural Language Processing
определение translationese — одно из возможных направлений
источник

N

Natalia in Natural Language Processing
но по коротким фразам из стандартных датасетов вы с шансами ничего не выудите
источник

AS

Alex Surname in Natural Language Processing
спасибо
источник

N

Natalia in Natural Language Processing
но только это тоже пока трудоёмкая и не очень решённая задача, т.к. нужно параллельно иметь корпуса непереводные и переводные и их сравнивать, а вы ещё и рандомный язык хотите определять...
источник

AS

Alex Surname in Natural Language Processing
определение из заданного списка тоже подойдет
источник

AS

Alex Surname in Natural Language Processing
по поводу корпусов, Гугл АПИ можно проплатить и получить эти тексты
источник

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 WILLIAMЯ zoe кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @mtikhomi, @kasha131, @Nikitini, @kirdin
При поддержке Золота Бородача
источник