Телеграмм чат группы natural_language

2020 August 13

F

Frukt in Natural Language Processing

Alexander Kukushkin

https://natasha.github.io/ner/

а я правильно понимаю, что здесь только с большими буквами работает? если с маленькой буквы имя, уже не находит

источник

22:22пожаловаться #1

DD

David Dale in Natural Language Processing

Ruslan Sabirov

Привет!
Подскажите, пожалуйста, ресурсы/статьи по генерации альтернативных ответов к вопросам.
Предположим, нам дан отрывок текста, вопрос и правильный ответ на него (например, вопрос "Что построили в Париже в 1889 году?", ответ "Эйфелева башня"). Задача сгенерировать заведомо неправильные варианты ответов (например, Лувр, Версаль и т.п.)

Кажется, для этого как раз идеально подходят нейронные языковые модели типа Порьфирьича (русский gpt-2). Генерируешь с большой температурой кучу вариантов, потом отсеиваешь - сначала автоматически (скажем, по наличию именованных сущностей), потом вручную.

источник

22:22пожаловаться #2

FF

Futorio Franklin in Natural Language Processing

Либо на основе данных с википедии

источник

22:22пожаловаться #3

AK

Alexander Kukushkin in Natural Language Processing

Frukt

а я правильно понимаю, что здесь только с большими буквами работает? если с маленькой буквы имя, уже не находит

Да. Модель для новостей, там имена с большой

источник

22:23пожаловаться #4

F

Frukt in Natural Language Processing

Alexander Kukushkin

Да. Модель для новостей, там имена с большой

понял, благодарю

источник

22:24пожаловаться #5

RS

Ruslan Sabirov in Natural Language Processing

Futorio Franklin

Либо на основе данных с википедии

А это как?

источник

22:25пожаловаться #6

FF

Futorio Franklin in Natural Language Processing

Ruslan Sabirov

А это как?

Ну в теории у википедии есть сущность Эйфелева башня, которая имеет тип, данный тип имеют и другие сущности, их можно взять за неправильные ответы

источник

22:43пожаловаться #7

RS

Ruslan Sabirov in Natural Language Processing

А, понял, спасибо!

источник

22:43пожаловаться #8

FF

Futorio Franklin in Natural Language Processing

Да не за что

источник

22:44пожаловаться #9

2020 August 14

OM

Orzhan Mikhail in Natural Language Processing

Ruslan Sabirov

Привет!
Подскажите, пожалуйста, ресурсы/статьи по генерации альтернативных ответов к вопросам.
Предположим, нам дан отрывок текста, вопрос и правильный ответ на него (например, вопрос "Что построили в Париже в 1889 году?", ответ "Эйфелева башня"). Задача сгенерировать заведомо неправильные варианты ответов (например, Лувр, Версаль и т.п.)

Решение похожей задачи тут: https://link.medium.com/Xmp0sDzvV8
С помощью gpt-2 и bert генерирует ложные варианты ответов

Medium

Practical AI : Automatically Generate True or False questions from any content with OpenAI GPT2…

In this article we will see how to automatically generate “True or False” questions using GPT-2, Sentence BERT and constituency parsing.

источник

00:02пожаловаться #10

sk

s k in Natural Language Processing

всем привет. подскажите код на питоне, как фильтровать опечатки в двух pandas series.
те: я выолняю merge двухстолбцов - комбинации фио+др. у оператора могут быть ошибки в 1-3 символа и мне нужно получить столбец - "проверить руками, возможно опечатка" эту связку.
приходит на ум считать расстояние Левенштейна через nltk (эту библиотеку надо использовать по тз) и выводить отдельным столбцом долю совпадения/ошибки.
никогда так не делал, будет круто если можно проще) любой совет - кайф.

источник

00:03пожаловаться #11

A

Alex in Natural Language Processing

s k

всем привет. подскажите код на питоне, как фильтровать опечатки в двух pandas series.
те: я выолняю merge двухстолбцов - комбинации фио+др. у оператора могут быть ошибки в 1-3 символа и мне нужно получить столбец - "проверить руками, возможно опечатка" эту связку.
приходит на ум считать расстояние Левенштейна через nltk (эту библиотеку надо использовать по тз) и выводить отдельным столбцом долю совпадения/ошибки.
никогда так не делал, будет круто если можно проще) любой совет - кайф.

Расстояние Левенштейна звучит норм, мне как-то ещё помогало нормализовать его на длину текста (чем длиннее строка - тем больше опечаток можно предположить)

источник

06:26пожаловаться #12

sk

s k in Natural Language Processing

как раз поэтому хочу получать столбец "доля отличия" = кол-во опечаток/длину слова.

источник

07:41пожаловаться #13

sk

s k in Natural Language Processing

получается примерно такая конструкция, нл цикл для млн строк это очень долго:

A = ['red','blue','green','white']
W = ['red','white','green']

if len(W) != len(A):
x = "#"
for i in range(len(A)):
W.append(x)

match = 0
for _ in range(len(A)):
print(A[_], W[_])
if A[_] == W[_]:
match += 1

print(match/len(A))

источник

08:10пожаловаться #14

A

Alex in Natural Language Processing

Если допустить что я уже погуглил и не нашел адекватных решений, то я бы попробовал сделать что-то вроде проиндексированного bag-of-letters для каждой строки из одного списка (например "ага" -> {"а": 2, "б": 0, "в": 0, "г": 1, ...}), а потом для каждой строки другого списка формировал бы вектор по такому же принципу и отбирал бы слова из первого списка с расстоянием между векторами меньше N, а для выбранного небольшого списка уже по-честному считал бы Левенштейна

источник

08:19пожаловаться #15

sk

s k in Natural Language Processing

пока не понимаю, попробую

источник

09:13пожаловаться #16

СВ

Сергей Волков... in Natural Language Processing

Ребят всем привет. Решил опробовать модель bert на примере вопрос/ответ. немного не пойму модель уже есть натренированная. Я ее скачиваю, дальше кладу свой датасет в формате по которому предполагается искать ответы на вопросы. Вопрос следующий.... сама модель bert-squad_1.1 на каких данных натренированна?

источник

11:28пожаловаться #17

DA

Dastan Akimzhanov in Natural Language Processing

Ребята, добрый день, недавно начал изучать Наташу, пытаюсь структурировать информацию, может кто проверить верно ли составил схему? или я запутался?)
Хорошо было бы если поправили

https://docs.google.com/spreadsheets/d/1GUa6Y2-0iuda2pcB5y1wDOuc1XFrit0Hiaeea8COJx8/edit#gid=0

Google Docs

Архитектура Наташи

Лист1

DeepPavlov BERT NER — SOTA для русского языка

0, =,RuBERT

(В 2019 ребята из проекта DeepPavlov адаптировали мультиязычный BERT для русского, появился RuBERT)

1, +,CRF-голова
RuBERT

1, =,2019 г
Адаптация мультиязычного BERT
1,Slovnet BERT NER
(аналог DeepPavlov BERT NER)

2, =,
NewsR...

источник

13:17пожаловаться #18

AK

Alexander Kukushkin in Natural Language Processing

Dastan Akimzhanov

Ребята, добрый день, недавно начал изучать Наташу, пытаюсь структурировать информацию, может кто проверить верно ли составил схему? или я запутался?)
Хорошо было бы если поправили

https://docs.google.com/spreadsheets/d/1GUa6Y2-0iuda2pcB5y1wDOuc1XFrit0Hiaeea8COJx8/edit#gid=0

Google Docs

Архитектура Наташи

Лист1

DeepPavlov BERT NER — SOTA для русского языка

0, =,RuBERT

(В 2019 ребята из проекта DeepPavlov адаптировали мультиязычный BERT для русского, появился RuBERT)

1, +,CRF-голова
RuBERT

1, =,2019 г
Адаптация мультиязычного BERT
1,Slovnet BERT NER
(аналог DeepPavlov BERT NER)

2, =,
NewsR...

Выглядит корректно

источник

15:48пожаловаться #19

DA

Dastan Akimzhanov in Natural Language Processing

Alexander Kukushkin

Выглядит корректно

👌

источник

20:48пожаловаться #20