для начала первое, но вообще по хорошему и то и другое
я бы сказала, что задачи принципиально разные с точки зрения лингвистики:
В певом случе, когда человек читает, текст изначально письменный и там есть нормальные предложения. Если чтец хорош, то он будет интонациооно из выделать. Дальше уже вопрос к качаству распознования окончаний (вряд ли хорошо, в русском языке окончания в безударной позиции сложноразличимы). Однако так как человек читает текст, значит есть шанс тот текст найти и на нем провалидироваться
вторая задача интересней, так как в усной речи по факту не предложения, а фразы. Специфика устной речи - много кореференций, отсутствие сложных грамматических конструкций, много опущений. Если это живой диалог - провадидроваться можно только разметив тексты вручную. Поэтому более целесообразно для начала выделять словосочетания, или короткие фразы
Для адекватного качества, кажется, что надо сразу иметь разделение на говорящих