Телеграмм чат группы natural_language

там беда канеш, есть ипшники c обозначениями ип, везде по разному, но это уже хорошо, есть юрлица, по большей части с кавычками/форма собственности/ключевые слова

источник

21:39пожаловаться #9

ДС

Дмитрий Симаков... in Natural Language Processing

Сколько всего наблюдений?)))

источник

21:39пожаловаться #10

Kopish in Natural Language Processing

жуть какая -_-

источник

21:39пожаловаться #11

Kopish in Natural Language Processing

40+к

источник

21:39пожаловаться #12

ДС

Дмитрий Симаков... in Natural Language Processing

Проще будет построить бейзлайн и посмотреть на скор.

источник

21:40пожаловаться #13

ДС

Дмитрий Симаков... in Natural Language Processing

Все в lower и вперед.

источник

21:40пожаловаться #14

Kopish in Natural Language Processing

так нужна будет разметка, а тут дизбаланс будет на лицо

источник

21:41пожаловаться #15

Kopish in Natural Language Processing

надо хоть чет наскрапить перед обучем, для валидации

источник

21:41пожаловаться #16

ДС

Дмитрий Симаков... in Natural Language Processing

Так разметка из ИНН, которые есть. дизбаланс может не оказаться проблемой. Просто хз, такую модель построить минут 10 от силы надо.

источник

21:41пожаловаться #17

Kopish in Natural Language Processing

буду пробовать

источник

21:42пожаловаться #18

2021 July 06

Timofey Tarusov in Natural Language Processing

Всем привет, пытаюсь дообучить BertForSequenceClassification из transformers на регрессию (num_labels=1), но outputs у модели - это loss и logits. Не могу разобраться как сделать предсказание, если возвращается результат до софтмакса (как это работает с регрессией?). В статьях везде примеры на классификацию, и это просто np.argsmax(..), а что делать с регрессией?

источник

12:19пожаловаться #19

Futorio Franklin in Natural Language Processing

Мне кажется, что проще брать верхний hidden_state и поверх достроить модель регрессии

источник

12:26пожаловаться #20