Size: a a a

Natural Language Processing

2021 July 06

A

Arthur in Natural Language Processing
Привет ребята
Запускаю пример тренировки модели с deeppavlov
Падает с ошибкой
    from .murmurhash import murmurhash3_32
 File "__init__.pxd", line 242, in init sklearn.utils.murmurhash
ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88 from C header, got 80 from PyObject

Deeppavlov юзает numpy 1.18, но погуглив наткнулся на какой-то нерешенный баг:
1) https://stackoverflow.com/questions/66060487/valueerror-numpy-ndarray-size-changed-may-indicate-binary-incompatibility-exp
2) https://github.com/scikit-learn-contrib/hdbscan/issues/457#issuecomment-773671043
источник

A

Arthur in Natural Language Processing
Попробовал переустановить numpy - ен помогло
Поставил numpy 1.19 - та же ошибка
Поставил numpy 1.20 - ошибка пропала, НО выдает новую ошибку (c шейпами что-то не так) :
    File "/home/arturka/.pyenv/versions/dp/lib/python3.8/site-packages/sklearn/utils/validation.py", line 724, in check_X_y
   y = column_or_1d(y, warn=True)
 File "/home/arturka/.pyenv/versions/dp/lib/python3.8/site-packages/sklearn/utils/validation.py", line 760, in column_or_1d
   raise ValueError("bad input shape {0}".format(shape))
ValueError: bad input shape ()
источник

A

Arthur in Natural Language Processing
Кто-то еще сталкивался с таким?
Может кто-то каким-то образом решил эту проблему?
источник

МЕ

Максим Ермаков... in Natural Language Processing
Ребят, есть именованные сущности, которые идут парами (type1, type2) , (type1, null), (null, type2), как такое правильно размечать? Понимаю, что можно просто размечать entity_type_1 и entity_type_2, но не хочу потерять взаимосвязь? Или это бестолково, и всё равно нужно разрешать взаимосвязи?
источник

d

dePuff in Natural Language Processing
Без учёта специфики nlp, вопрос количества типов и комбинаций
источник

МЕ

Максим Ермаков... in Natural Language Processing
И что за вопрос? Типов два, я варианты их встречаемости перечислил ( вариант null/null исключаем). Пространственно они могут быть разнесены по тексту.
источник

d

dePuff in Natural Language Processing
Создать под каждую комбинацию отдельный тип
источник

МЕ

Максим Ермаков... in Natural Language Processing
Как вариант реализации - да, а инженерно, как разметку производить, если, скажем, сущность комбинированного типа с лишними словами посередине?
источник

МЕ

Максим Ермаков... in Natural Language Processing
Ну, пример банальный: Apple IPhone 5, Samsung Galaxy S5 - текст а-ля
"мой Galaxy S5 [только модель] лучше чем от Apple [только марка]",
"Samsung представила новый флагман [куча текста посередине] Galaxy S90" ,
"Samsung представила убийцу IPhone [сущности по краям для разных классов]"
источник

TM

Toemik Mnemonic in Natural Language Processing
Приветствую! Есть у кого то опыт использования BERT в качестве модели (трансформера?) в SpaCy для русского языка?
источник

TM

Toemik Mnemonic in Natural Language Processing
есть ли вообще такая готовая модель для русского?
источник

d

dePuff in Natural Language Processing
Недавно в чате ссылка пробегала

https://github.com/MartinoMensio/spacy-sentence-bert#nlpadd_pipe-api

Вбей в поиск по чату
источник

TM

Toemik Mnemonic in Natural Language Processing
спасибо!
источник

$

$○| in Natural Language Processing
Подскажите какую-нибудь библиотеку на python, чтобы вычислить частоту употребления слова в русском языке? Мне нужно отфильтровать малоупотребимые слова в словаре
источник

DD

David Dale in Natural Language Processing
Можно скачать словарь частот из НКРЯ
https://ruscorpora.ru/new/corpora-freq.html
источник

$

$○| in Natural Language Processing
О, отлично
источник

$

$○| in Natural Language Processing
спасибо
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Блин такую тему подняли я теперь понял в чем ошибка в моих работах))
источник

d

dePuff in Natural Language Processing
Создал отдельный тип под каждую комбинацию? :)
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Ещё нет, но создам. У меня как раз видимо из-за отсутствия связей по метрикам все ок, а по смыслу предсказываемые сущности полный отстой
источник