Size: a a a

Natural Language Processing

2020 October 22

SD

Sergey Dulikov in Natural Language Processing
Grigory Frantsuzov
Слушайте а это таки GPT2 или GPT3 (openai же не выкатывали еще в открытый доступ)?
Архитектура-то известна
источник

AK

Aleksey Kulnevich in Natural Language Processing
и не сильно отличается от прошлой )
источник

SM

Sergei Markoff in Natural Language Processing
Aleksey Kulnevich
и не сильно отличается от прошлой )
Да, там даже токенизатор такой же.
источник

SM

Sergei Markoff in Natural Language Processing
Отличия в длине контекста и в чередовании sparse/dense блоков.
источник

SM

Sergei Markoff in Natural Language Processing
Но мы сделали одну из моделей полностью dense, у неё в итоге поменьше перплексия, хотя училась дольше, понятное дело.
источник

AK

Aleksey Kulnevich in Natural Language Processing
ну и количество слоев накинули они
источник

AK

Aleksey Kulnevich in Natural Language Processing
а результаты как? как понимаю речь идет о модели от Сбера?
источник

SP

Sebastian Pereira in Natural Language Processing
Darina Dementyeva
наверное, самое такое базовое - пример скрипта генерации и запуска написан как на Сберовском Кристофари. не все имеют к нему доступ, хотелось бы запустить на колабе или своей машине, но сразу начинаются танцы с бубнами и разборка кода. это заняло уйму времени и пока не привело ни к каким результатам.
+++
источник

GF

Grigory Frantsuzov in Natural Language Processing
Darina Dementyeva
наверное, самое такое базовое - пример скрипта генерации и запуска написан как на Сберовском Кристофари. не все имеют к нему доступ, хотелось бы запустить на колабе или своей машине, но сразу начинаются танцы с бубнами и разборка кода. это заняло уйму времени и пока не привело ни к каким результатам.
поддержу
источник

N

Natalia in Natural Language Processing
Elena
GPT3 в свободном доступе? ого, вот это щедрость
эх, это, конечно, щедрость, но для тех, кто готов с этим работать

а вот вообще сделали бы уже наконец интерфейс для простых смертных для pos-разметки и парсинга, а то есть только nre, кажется. типа udpipe online или нового выкаченного от stanza

а то даже неловко, что даже для латышского такой нативный пайплайн уже несколько лет есть, а для русского до сих пор ничего. deeppavlov, вот это же совсем несложно запилить, а!
источник

E

Elena in Natural Language Processing
интерфейс в смысле на входе текст, а на выходе размеченный xml?
источник

N

Natalia in Natural Language Processing
ну это не xml, это скорее табличные данные в conll
источник

E

Elena in Natural Language Processing
ну или csv
источник

N

Natalia in Natural Language Processing
чтобы разметку могли делать не только люди, способные запустить у себя модельки
источник

MF

M F in Natural Language Processing
Natalia
эх, это, конечно, щедрость, но для тех, кто готов с этим работать

а вот вообще сделали бы уже наконец интерфейс для простых смертных для pos-разметки и парсинга, а то есть только nre, кажется. типа udpipe online или нового выкаченного от stanza

а то даже неловко, что даже для латышского такой нативный пайплайн уже несколько лет есть, а для русского до сих пор ничего. deeppavlov, вот это же совсем несложно запилить, а!
По описанию похоже на https://github.com/jonorthwash/ud-annotatrix
источник

AO

Alex Orgish in Natural Language Processing
Grigory Frantsuzov
Слушайте а это таки GPT2 или GPT3 (openai же не выкатывали еще в открытый доступ)?
GPT3 уже не OpenAI, а Microsoft. MS владеет теперь экслюзивной лицензией на GPT3 и кроме внутренних нужд вроде собирается продавать как сервис на Azure.
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alex Orgish
GPT3 уже не OpenAI, а Microsoft. MS владеет теперь экслюзивной лицензией на GPT3 и кроме внутренних нужд вроде собирается продавать как сервис на Azure.
Спасибо за уточнение
источник

N

Natalia in Natural Language Processing
эээ нет, это взять и сделать свою разметку сырому тексту, я про http://lindat.mff.cuni.cz/services/udpipe/ и http://stanza.run/
источник

N

Natalia in Natural Language Processing
а ок, у Станзы даже хуже, там не табличка на выходе
источник

MF

M F in Natural Language Processing
Natalia
эээ нет, это взять и сделать свою разметку сырому тексту, я про http://lindat.mff.cuni.cz/services/udpipe/ и http://stanza.run/
Можно попытаться поднять у себя https://github.com/maryszmary/ud-annotatrix/tree/automarkup, там у них как раз добавлена авторазметка для русского.

С первого раза может не подняться, это был студенческий проект (автор считает, что там все плохо).

Есть ещё https://github.com/tiefling-cat/ru-syntax  для командной строки , conll  как раз отдает.
источник