Size: a a a

Natural Language Processing

2021 July 05

MO

Mikhail Orlov in Natural Language Processing
И не нужен вам никакой nlp
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Так ип по инн определяется по количеству символов в нем.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Нет?
источник

K

Kopish in Natural Language Processing
+
источник

K

Kopish in Natural Language Processing
да, но так можно решить только для <40% данных
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Ну смотри. Зато для 40% данных у тебя есть разметка. Учи модель)
источник

K

Kopish in Natural Language Processing
источник

ДС

Дмитрий Симаков... in Natural Language Processing
тфидф на символах + свд + логрег?))))
источник

K

Kopish in Natural Language Processing
там беда канеш, есть ипшники c обозначениями ип, везде по разному, но это уже хорошо, есть юрлица, по большей части с кавычками/форма собственности/ключевые слова
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Сколько всего наблюдений?)))
источник

K

Kopish in Natural Language Processing
жуть какая -_-
источник

K

Kopish in Natural Language Processing
40+к
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Проще будет построить бейзлайн и посмотреть на скор.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Все в lower и вперед.
источник

K

Kopish in Natural Language Processing
так нужна будет разметка, а тут дизбаланс будет на лицо
источник

K

Kopish in Natural Language Processing
надо хоть чет наскрапить перед обучем, для валидации
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Так разметка из ИНН, которые есть. дизбаланс может не оказаться проблемой. Просто хз, такую модель построить минут 10 от силы надо.
источник

K

Kopish in Natural Language Processing
буду пробовать
источник
2021 July 06

TT

Timofey Tarusov in Natural Language Processing
Всем привет, пытаюсь дообучить BertForSequenceClassification из transformers на регрессию (num_labels=1), но outputs у модели - это loss и logits. Не могу разобраться как сделать предсказание, если возвращается результат до софтмакса (как это работает с регрессией?). В статьях везде примеры на классификацию, и это просто np.argsmax(..), а что делать с регрессией?
источник

FF

Futorio Franklin in Natural Language Processing
Мне кажется, что проще брать верхний hidden_state и поверх достроить модель регрессии
источник