Size: a a a

Natural Language Processing

2020 December 25

AW

Alex Wortega in Natural Language Processing
Народ а у кого то knowledge graph работают в компании?
источник

BZ

Below Zero in Natural Language Processing
Alex Wortega
Народ а у кого то knowledge graph работают в компании?
у нас работают в Сбере
источник

K

Kutuz4 in Natural Language Processing
Krep Kospit
Оффтоп,но, надеюсь, ничего не нарушаю. Я тут собрал книги Ницше в txt, на русском. Вдруг кому ещё надо)
Да
источник

KK

Krep Kospit in Natural Language Processing
Alex Wortega
Закинь плиз в датасеты Наташи))
Посоветуйте, как его подготовить. Я пока убрал отступы между главами и убрал цифры и их сочетания типа [56], *49
источник

A

Anton in Natural Language Processing
Какой метод разделения текста на предложения на английском языке является наиболее качественным? (в сравнении с nltk)
источник

AW

Alex Wortega in Natural Language Processing
Krep Kospit
Посоветуйте, как его подготовить. Я пока убрал отступы между главами и убрал цифры и их сочетания типа [56], *49
Оставь лучше ещё сырой, мб разные цели есть.
источник

DK

Daniel Kornev in Natural Language Processing
Natalia
ну, видимо, так, да (хотя надо подумать, как написать так, чтобы в потоке issues не потонуло)
мы смотрим за issues у нас 🙂 это раз.

два, кстати, есть замечательные коллеги, работавшие ранее над Алисой, а затем сделавшие Label Studio

https://labelstud.io/

выглядит очень вдохновляюще.

С нашей стороны мы в целом за то, чтобы тоже такие инструменты делать, и даже ищем людей с опытом в разработке фронтендов 😉

https://deeppavlov.ai/careers
источник

DK

Daniel Kornev in Natural Language Processing
Roman Samarev
Никаких примочек нет. Но лицензирование двойное. Поэтому открытую версию можно использовать только для некоммерческого использования и только под GPL-проекты. Впрочем, исправлять ошибки за эти деньги они будут.

Откровенно говоря, их размер лицензии примерно соответствует годовой зп инженера в тех краях.
у нас Apache 2.0 лицензия, в отличие от Stanford
источник

RS

Roman Samarev in Natural Language Processing
Ну так и CoreNLP - это, в первую очередь, Java. А у вас, судя по https://github.com/deepmipt и https://labelstud.io/,  стек другой
источник

DK

Daniel Kornev in Natural Language Processing
Это не у нас в DeepPavlov, Label Stud.io делают мои бывшие коллеги из Яндекса
источник

RS

Roman Samarev in Natural Language Processing
Daniel Kornev
Это не у нас в DeepPavlov, Label Stud.io делают мои бывшие коллеги из Яндекса
А что именно у DeepPavlov на Java?
источник

OS

Oleg Serikov in Natural Language Processing
Alex Wortega
Оставь лучше ещё сырой, мб разные цели есть.
++
источник

DK

Daniel Kornev in Natural Language Processing
Так 🙂

Сорри за путаницу.

Есть библиотека DeepPavlov, она написана на Python (преимущественно). Её лицензия - Apache 2.0.
Есть Stanford NLP, у которых код на Java (преимущественно). У них есть GPL для некоммерческих проектов и т.д., а для коммерческих - отдельная платная лицензия
источник

RS

Roman Samarev in Natural Language Processing
Daniel Kornev
Так 🙂

Сорри за путаницу.

Есть библиотека DeepPavlov, она написана на Python (преимущественно). Её лицензия - Apache 2.0.
Есть Stanford NLP, у которых код на Java (преимущественно). У них есть GPL для некоммерческих проектов и т.д., а для коммерческих - отдельная платная лицензия
Ну, так, если надо проект на Java, то либо OpenNLP, либо Gate, либо CoreNLP с платной лицензией….
источник

DK

Daniel Kornev in Natural Language Processing
Т.е, если "в лоб" сравнивать что университеты (Стэнфорд и МФТИ), что проекты (Stanford NLP и DeepPavlov), то видно, что возможности и ресурсы у Стэнфорда и у нас разные; не говоря уже о том, что DeepPavlov - молодой проект )
источник

OS

Oleg Serikov in Natural Language Processing
Roman Samarev
Ну, так, если надо проект на Java, то либо OpenNLP, либо Gate, либо CoreNLP с платной лицензией….
jython 🤪
источник

RS

Roman Samarev in Natural Language Processing
Не вариант
источник

RS

Roman Samarev in Natural Language Processing
Производительность всегда есть на что потратить и без питона в проекте 🙂
источник

RS

Roman Samarev in Natural Language Processing
К вопросу о производительности на сегментации предложений. Черновые материалы. GUM Corpus. Фрагмент ~ 5 тыс предложений
источник

RS

Roman Samarev in Natural Language Processing
источник