What Changed Your Mind: The Roles of Dynamic Topics and Discourse in Argumentation Processhttps://arxiv.org/pdf/2002.03536v1.pdf⏰
Когда - 10 февраля 2020
🍭
В чем понтАвторы обучили сеть определять победителя спора, и сделали аналитику полученных результатов. Набор данных был взят с subreddit с дискуссиями пользователей, и очень интересен по своей сути: с одной стороны, он бесплатный и постоянно пополняется, с другой - достаточно структурированный и строгий, посколько в subreddit есть правила оформления дискуссий и модерация.
💎
На чем училисьАвторы учили свою модель на данных subreddit "ChangeMyView". В нем действуют следующие правила: человек решает завести дискуссию, и публикует свою точку зрения по какой-нибудь проблеме вместе с аргументами. Другие пользователи reddit приводят аргументы, оспаривающие эту точку зрения. Цель заводящего дискуссию - выслушать аргументы, ответить на них, и либо изменить свою точку зрения, либо остаться при своем, но уже более осознанно. Авторы брали набор пар дискуссий, где автор изменил и не изменил свое мнение, и затем учили модели на pairwise loss: модель предсказывает вероятность, что автор поменяет мнение, для первой и второй дискуссии. Успехом считается случай, когда эта вероятность для спора, закончившегося сменой мнения, больше, чем вероятность для спора, в котором автор не изменяет свою позицию.
🏋️♀️
Как строили модельСначала авторы разделили входные слова в предложение на компоненты дискурса и темы. Дискурс - это не меняющаяся составляющая аргументации, определяющая стиль предложения. Тема - это динамические паттерны, вокруг которых строится дискуссия. После разделения входных слов в аргументе, тема, дискурс и входное слово подаются в сеть с памятью(GRU) и предсказывается вероятность "убедительности" аргументов. Итоговый лосс считался, как разница вероятности "убедительности" для дискуссии, в которой автора переубедили и где автора не переубедили, за вычетом скора того, насколько хорошо слова в аргументации разделились на тему и дискурс.
📄
АналитикаПосле того, как была построена модель, которая предсказывает с качеством 70%, кто победит в споре, авторы выделили кластеры тем и дискурсов для разных слов и проанализировали, от чего зависит успех дискуссии в большей степени. Оказалось, что аргументы, использующие меньший набор тем, больше статистики и персональных местоимений более успешны. Также для аргументов были выделены кластеры тем и дискурсов и их средние веса в сети с динамической памятью. Например, для спора на тему "Нужно ли учить второй язык", сильнее всего на "успешность" аргументации влияет кластер дискурсов, который включает в себя цифры и ссылки, а для тем - кластер "познание".
🔦
Что в итогеНовая идея, по модели и аналитике местами спорная, но очень интересная по способу выбору набора данных (а данные как известно решают). Не первая статья, где авторы в качестве обучающей выборки используют данные с специфических subreddit, кажется хорошо присмотреться к reddit как серьезному источнику новых данных.