ну вообще да, сначала тренируется NER, чтобы понять, где у нас сущности типа key, а где сущности типа value
а после этого уже можно искать соответствия между сущностями key и value (чтобы понять, какой value к какому key отностится) посредством relation extraction