Добрый вечер всем. Стоит такая задача:
Есть обьявления, состоят из заголовка + описание + картинки.
Стоит 3 задачи, определить правильная ли категория, правильный ли заголовок и не продается что-то нелегальное.
Пытался делать так для категорий : title + body + Efficient вытаскивал текст с картинки(что там) , энкодил tf-idf потом SVC и выходит 85 max % accuracy, но в проде это все падает то 75.
Насчет правильного заголовка я в замещательстве. Как мне дать алгоритму понять чтобы он смотрел что в заголовке например Iphone 5 а в описание Samsung s7 и это не правильно?
Придется делать multiple input для модели?
Подскажите пожалуйста направление, или что гуглить/использовать.
Благодарю.
А просто разбить заголовок на слова,выделить именованные сущности айфон,например,и смотреть,есть ли он в тексте просто in , почему так нельзя? А картинка и текст отдельно,а потом результаты совместить,или я задание не понимаю?