Спасибо за доклад, посмотрел с карандашиком:
1. 15:08 BIO нужна чтобы различать слитные сущности. Например, в "поговорив с Машей Петя узнал" с IO нельзя разметить два имени
2. 17:54 Вообще, делать NER по предложения не очень хорошо. Например, есть "Надежда Ефимовна осталась одна. Надежда покинуть город последней", без контекста непонятно во втором предложении "Надежда" имя или нет.
3.1. 29:06 А как вы переходите от multilabel разметки с структуре. Например, от "требования МУП Рога и Копыта" к {..., side: {type: claim, org: {type: МУП, name: Рога и Копыта}}}. Спаны же могут как угодно лечь друг на друга
3.2. Как просклонять? Например, "при участии Ивановой А. А." -> {last: Иванова...}
3.3 Наверняка вместо "44.444 руб" нужно {amount: 44444, currency: rub}. Как это получить из разметки?
4. 35:25 Что такое dgx_bert? Что-то открытое?
5. 37:36 Ничесе, rubert не выиграл у bert-multilingual. У них разный словарь, размер одинаковый, больше русских сабтокенов. Там аккуратно подменяли эмбеддинги и дообучали, должно быть лучше качество.
6. 43:03 Есть дамп
rospravosudie.com, там больше 1.5Гб
7. 47:53 В RoBERTa показали, что NSP не очень нужна
8. 57:01 Машинерию с multilabel и classification вы сами придумали или есть какая-то статья?