еще интересные особенности нашел Если "Сергей работает в Озоне", то Озон извлекается как компания, а если "Это курьер Озона", то уже не видит организацию. Такие дела :-(
@alexkuk Александр, скажите, есть ли какие-то "твики" чуть улучшить извлечение организаций, может быть, сместить "голоса" модели с PER на ORG без обучения на своих данных? У нас короткие тексты, не новости. Вижу, что на длинных текстах работает значительно лучше.
В первую очередь это не русский язык. А во вторых вы сами всё поймёте, когда протестируйте на своих данных. Датасет,на котором обучалась и тестировалась модель, может принципиально отличаться от ваших данных.
народ, а подскажите варианты простого решения частной проблемы спелчекинга - в тексте слипаются односимвольные союзы\предлоги со следующим после них словом. Нужно провести сегментацию. Язык - русский, прилипают всегда спереди: "Взрослые идети", "иди сним"..
односимвольных в целом в русском мало, но дальше стопорнулся - как понять, что имеет место склейка, а не валидное слово. Первая мысль - частотный словарь, и если там нет, то явно имеем проблему, но может быть, что-то еще?