Size: a a a

Natural Language Processing

2020 November 26

AB

Alexey Burnakov in Natural Language Processing
Alexey Burnakov
@alexkuk , автор Natasha Отказался общаться со мной, после обсуждения ошибок в работе библиотеки. Было заведено issue на githab проекта: https://github.com/natasha/natasha/issues/93 Проблема состоит в том, что библиотека создает весьма значительно количество неправильных normal форм ФИО, о чем было подробно рассказано Автору с приложением текстов, где эта проблема встречается. На нашем корпусе текстов мы ее видим довольно часто. А учитывая, что именно нормальные формы у нас используются для анализа, мы ищем опечатки в ФИО (отличается один символ). В итоге, в корпусе текстов, где присутствуют как минимум два одних и тех же ФИО, и их нормализованные формы отличаются на 1 символ, ложно-положительных срабатываний более 99%. Это те случаи, когда опечатки не было, а была неправильная нормализованная форма.  Эти 99% процентов, конечно, не являются универсальной метрикой качества Natsha NER normal. Как указано в issue в ходе тестирования мы выявили, что если в тексте есть как минимум два раза встречается ФИО, и есть отличие на 1 символ, то 99% и более - это ошибка библиотеки. В связи в этим, а также тем фактом, что Автор были выслано для анализа 3200 текстов, содержащих 5631 ошибку - в качестве базы для анализа этого бага (несовершества), весьма странно выглядит то, что он отказался обсуждать решение, сославшись на несовершенство компонентов.
источник

AB

Alexey Burnakov in Natural Language Processing
Alexey Burnakov
@alexkuk , автор Natasha Отказался общаться со мной, после обсуждения ошибок в работе библиотеки. Было заведено issue на githab проекта: https://github.com/natasha/natasha/issues/93 Проблема состоит в том, что библиотека создает весьма значительно количество неправильных normal форм ФИО, о чем было подробно рассказано Автору с приложением текстов, где эта проблема встречается. На нашем корпусе текстов мы ее видим довольно часто. А учитывая, что именно нормальные формы у нас используются для анализа, мы ищем опечатки в ФИО (отличается один символ). В итоге, в корпусе текстов, где присутствуют как минимум два одних и тех же ФИО, и их нормализованные формы отличаются на 1 символ, ложно-положительных срабатываний более 99%. Это те случаи, когда опечатки не было, а была неправильная нормализованная форма.  Эти 99% процентов, конечно, не являются универсальной метрикой качества Natsha NER normal. Как указано в issue в ходе тестирования мы выявили, что если в тексте есть как минимум два раза встречается ФИО, и есть отличие на 1 символ, то 99% и более - это ошибка библиотеки. В связи в этим, а также тем фактом, что Автор были выслано для анализа 3200 текстов, содержащих 5631 ошибку - в качестве базы для анализа этого бага (несовершества), весьма странно выглядит то, что он отказался обсуждать решение, сославшись на несовершенство компонентов.
источник

AB

Alexey Burnakov in Natural Language Processing
Alexey Burnakov
@alexkuk , автор Natasha Отказался общаться со мной, после обсуждения ошибок в работе библиотеки. Было заведено issue на githab проекта: https://github.com/natasha/natasha/issues/93 Проблема состоит в том, что библиотека создает весьма значительно количество неправильных normal форм ФИО, о чем было подробно рассказано Автору с приложением текстов, где эта проблема встречается. На нашем корпусе текстов мы ее видим довольно часто. А учитывая, что именно нормальные формы у нас используются для анализа, мы ищем опечатки в ФИО (отличается один символ). В итоге, в корпусе текстов, где присутствуют как минимум два одних и тех же ФИО, и их нормализованные формы отличаются на 1 символ, ложно-положительных срабатываний более 99%. Это те случаи, когда опечатки не было, а была неправильная нормализованная форма.  Эти 99% процентов, конечно, не являются универсальной метрикой качества Natsha NER normal. Как указано в issue в ходе тестирования мы выявили, что если в тексте есть как минимум два раза встречается ФИО, и есть отличие на 1 символ, то 99% и более - это ошибка библиотеки. В связи в этим, а также тем фактом, что Автор были выслано для анализа 3200 текстов, содержащих 5631 ошибку - в качестве базы для анализа этого бага (несовершества), весьма странно выглядит то, что он отказался обсуждать решение, сославшись на несовершенство компонентов.
Огрехи работы библиотеки, представленные для обработки, скрываются, предлагается поэкспериментировать самим пользователям или как-то иначе это может происходить?
источник

KL

Kir L in Natural Language Processing
Алексей, Вы правда немного агрессивно общаетесь на скринах.
источник

DK

Denis Kirjanov in Natural Language Processing
а почему Вы чего-то требуете от разработчика опенсорсной библиотеки? он обязан по первому вашему слову куда-то бежать?
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Так это опенсорс либа, а не коммерческий продукт, который Вам продают. Странные претензии в таком случае :)
источник

A

Andrei in Natural Language Processing
ахах, вот так опенсорс разрабатывают люди, а потом прилетает
источник

AB

Alexey Burnakov in Natural Language Processing
Kir L
Алексей, Вы правда немного агрессивно общаетесь на скринах.
На мои  прямые вопросы я не получаю ответов, в результате просто отказ общаться
источник

AB

Alexey Burnakov in Natural Language Processing
Andrei
ахах, вот так опенсорс разрабатывают люди, а потом прилетает
А что*
источник

AB

Alexey Burnakov in Natural Language Processing
?
источник

AB

Alexey Burnakov in Natural Language Processing
Давайте дам предысторию небольшую, без резкостей
источник

DK

Denis Kirjanov in Natural Language Processing
Alexey Burnakov
На мои  прямые вопросы я не получаю ответов, в результате просто отказ общаться
Вы даете не упреки, а команды в духе "иди поправь немедленно, сделал ты говно"
источник

A

Andrei in Natural Language Processing
нинннадо плез)
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Соглашусь, история будет лишней, на мой взгляд
источник

DK

Denis Kirjanov in Natural Language Processing
окей, сделайте "говно" не сами -- киньте пару PR для улучшения работы с фамилиями, делов-то
источник

A

Andrei in Natural Language Processing
ваще переписку выкладывать ну такое
источник

A

Andrei in Natural Language Processing
можете форк сделать
источник

AB

Alexey Burnakov in Natural Language Processing
Denis Kirjanov
окей, сделайте "говно" не сами -- киньте пару PR для улучшения работы с фамилиями, делов-то
Я может и могу, но мне просто говорят, вы язвите, я не буду общаться
источник

AB

Alexey Burnakov in Natural Language Processing
источник

AB

Alexey Burnakov in Natural Language Processing
Автор собирал фидбек. Он получил фидбек.
источник