Size: a a a

Natural Language Processing

2018 April 17

D

Dmitry in Natural Language Processing
Оно может из полностью не размеченного на предложения текста выделить предложения? Что-то я сомневаюсь.
источник

D

Dmitry in Natural Language Processing
Условие - знаков препинания нет.
источник

AK

Alexander Kukushkin in Natural Language Processing
Если обучить на данных без знаков препинанию с каким-то качество скорее всего сможет
источник

AF

Alexander Fedorenko in Natural Language Processing
ИМХО главная проблема в том, что это не просто один текст по одной теме, который допускает разную разбивку на предложения, не меняя смысла, а это смесь источников - участников беседы. Тема одна - общая. А мысли разные и изложенные обрывочно в разное время беседы и т.д. И обучать тут что-то не представляется возможным. Какие датасеты для обучения в таком случае готовить и сколько лет обучать. Хотя бы по источникам текста была бы разбивка.
источник

KS

Ksenia Sukhova in Natural Language Processing
Dmitry
Здравствуйте, требуется разбить на предложения текст, полученный от распознавателя речи. Может кто сталкивался с подобной задачей?
А какой природы текст? Читают монологи и потом распознают или разговоры/диалоги?
источник

BK

Bogdan Kirillov in Natural Language Processing
Sup
источник

LM

Lev Martynenko in Natural Language Processing
Ksenia Sukhova
А какой природы текст? Читают монологи и потом распознают или разговоры/диалоги?
для начала первое, но вообще по хорошему и то и другое
источник

AF

Alexander Fedorenko in Natural Language Processing
Lev Martynenko
для начала первое, но вообще по хорошему и то и другое
Если вы еще никак не решали эту проблему, то для первого случая опробуйте то, что уже вам предложил Alexander Kukushkin, чтобы понять насколько этот вариант вам подходит или нет.
источник

AF

Alexander Fedorenko in Natural Language Processing
А для второго, ИМХО проще участникам беседы раздать персональные радиомикрофоны в петлицу, чтобы источники текста (авторство) определять и разбивать по авторам, чтобы т.о. попытаться свести второй случай к задаче первого типа (монолог). И такой подход будет дешевле, чем потратиться на ПО  и не решить проблему. Ну или поискать решения от Google, которые научились выделять голоса из толпы
источник

D

Dmitry in Natural Language Processing
Посмотрел, задача называется automatic sentence segmentation, неплохие результаты дают LSTM сети.
источник

AF

Alexander Fedorenko in Natural Language Processing
Dmitry
Посмотрел, задача называется automatic sentence segmentation, неплохие результаты дают LSTM сети.
Для какого случая? Для первого?
источник

D

Dmitry in Natural Language Processing
Alexander Fedorenko
Для какого случая? Для первого?
Да
источник

KS

Ksenia Sukhova in Natural Language Processing
Lev Martynenko
для начала первое, но вообще по хорошему и то и другое
я бы сказала, что задачи принципиально разные с точки зрения лингвистики:
В певом случе, когда человек читает, текст изначально письменный и там есть нормальные предложения. Если чтец хорош, то он будет интонациооно из выделать. Дальше уже вопрос к качаству распознования окончаний (вряд ли хорошо, в русском языке окончания в безударной позиции сложноразличимы). Однако так как человек читает текст, значит есть шанс тот текст найти и на нем провалидироваться

вторая задача интересней, так как в усной речи по факту не предложения, а фразы. Специфика устной речи - много кореференций, отсутствие сложных грамматических конструкций, много опущений. Если это живой диалог - провадидроваться можно только разметив тексты вручную. Поэтому более целесообразно для начала выделять словосочетания, или короткие фразы
Для адекватного качества, кажется, что надо сразу иметь разделение на говорящих
источник

KS

Ksenia Sukhova in Natural Language Processing
Но если знать конечную цель, можно порассуждать менее пространно
источник

AF

Alexander Fedorenko in Natural Language Processing
Наверное в раскрытии конечной цели, авторы вопросов не очень заинтересованы))
источник

LM

Lev Martynenko in Natural Language Processing
Ksenia Sukhova
я бы сказала, что задачи принципиально разные с точки зрения лингвистики:
В певом случе, когда человек читает, текст изначально письменный и там есть нормальные предложения. Если чтец хорош, то он будет интонациооно из выделать. Дальше уже вопрос к качаству распознования окончаний (вряд ли хорошо, в русском языке окончания в безударной позиции сложноразличимы). Однако так как человек читает текст, значит есть шанс тот текст найти и на нем провалидироваться

вторая задача интересней, так как в усной речи по факту не предложения, а фразы. Специфика устной речи - много кореференций, отсутствие сложных грамматических конструкций, много опущений. Если это живой диалог - провадидроваться можно только разметив тексты вручную. Поэтому более целесообразно для начала выделять словосочетания, или короткие фразы
Для адекватного качества, кажется, что надо сразу иметь разделение на говорящих
Да, вы абсолютно правы, это разные задачи, но надо сначала с первой разобраться)
источник

AF

Alexander Fedorenko in Natural Language Processing
Lev Martynenko
Да, вы абсолютно правы, это разные задачи, но надо сначала с первой разобраться)
Все правильно. От простого к сложному))
источник

LM

Lev Martynenko in Natural Language Processing
Ksenia Sukhova
Но если знать конечную цель, можно порассуждать менее пространно
Для начала из текста абсолютно без пунктуации выделить хотя бы самые простые предложения (опустим что он впринципе корявенький, WER там далеко не нулевой)
источник

LM

Lev Martynenko in Natural Language Processing
Ksenia Sukhova
я бы сказала, что задачи принципиально разные с точки зрения лингвистики:
В певом случе, когда человек читает, текст изначально письменный и там есть нормальные предложения. Если чтец хорош, то он будет интонациооно из выделать. Дальше уже вопрос к качаству распознования окончаний (вряд ли хорошо, в русском языке окончания в безударной позиции сложноразличимы). Однако так как человек читает текст, значит есть шанс тот текст найти и на нем провалидироваться

вторая задача интересней, так как в усной речи по факту не предложения, а фразы. Специфика устной речи - много кореференций, отсутствие сложных грамматических конструкций, много опущений. Если это живой диалог - провадидроваться можно только разметив тексты вручную. Поэтому более целесообразно для начала выделять словосочетания, или короткие фразы
Для адекватного качества, кажется, что надо сразу иметь разделение на говорящих
В первом случае на качество дикции чтеца надеяться явно не стоит)
источник
2018 April 19

В

Владислав in Natural Language Processing
Здравствуйте товарищи. Кто-нибудь занимался CRF моделями для извлечения сущностей?
источник