Size: a a a

Natural Language Processing

2020 September 22

ML

Michael L in Natural Language Processing
Подскажите пожалуйста, что делаю не так. Собрал пример как указано на гитхабе.
источник

D

Dmitry in Natural Language Processing
Ох уж эти темные темы. Ничего не видно на скрине с телефона)
источник

ML

Michael L in Natural Language Processing
ща код скину
источник

ML

Michael L in Natural Language Processing
Dmitry
Ох уж эти темные темы. Ничего не видно на скрине с телефона)
#import sys
from natasha import (
   Segmenter,
   MorphVocab,

   NewsEmbedding,
   NewsMorphTagger,
   NewsSyntaxParser,
   NewsNERTagger,

   PER,
   NamesExtractor,
   DatesExtractor,
   MoneyExtractor,
   AddrExtractor,

   Doc
)

#######
#
#  INIT
#
#####


segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
#text = sys.argv[1]
doc = Doc(text)


#######
#
#   NER
#
######


doc.tag_ner(ner_tagger)
display(doc.spans[:5])
doc.ner.print()

»»»
Traceback (most recent call last):
 File "/home/freedom/Dropbox/Job/Projects/natasha/DataParser.py", line 32, in <module>
   doc.tag_ner(ner_tagger)
 File "/mnt/Data/Dropbox/Job/Projects/natasha/natasha/doc.py", line 142, in tag_ner
   tag_ner_doc(self, tagger)
 File "/mnt/Data/Dropbox/Job/Projects/natasha/natasha/doc.py", line 265, in tag_ner_doc
   doc.envelop_span_tokens()
 File "/mnt/Data/Dropbox/Job/Projects/natasha/natasha/doc.py", line 157, in envelop_span_tokens
   envelop_span_tokens(self.tokens, self.spans)
 File "/mnt/Data/Dropbox/Job/Projects/natasha/natasha/doc.py", line 278, in envelop_span_tokens
   for group, span in zip(groups, spans):
 File "/mnt/Data/Dropbox/Job/Projects/natasha/natasha/span.py", line 27, in envelop_spans
   while index < len(spans):
TypeError: object of type 'NoneType' has no len()
источник

ML

Michael L in Natural Language Processing
поставил отдельно navec, с ним работает
источник

ML

Michael L in Natural Language Processing
@alexkuk Вы говорили в видео о проблеме парсинга данных в решении суда. А есть натренированные библиотеки для этого?
источник

AW

Alex Wortega in Natural Language Processing
Michael L
поставил отдельно navec, с ним работает
Лучше кидайте через pastebin.org
источник

ML

Michael L in Natural Language Processing
В общем не завелась наташа))
источник

AW

Alex Wortega in Natural Language Processing
Товарищи, а у меня есть бд на 10гб, она в .bz2  ,  когда закинул в коллаб и начал анзипить, коллаб (прошка)  сказал что я иду нахер потому что слишком много ресурсов. Вопрос , а что делать?
источник

AW

Alex Wortega in Natural Language Processing
Ковырять в сторону Hadoop?
источник

YB

Yuri Baburov in Natural Language Processing
Alex Wortega
Товарищи, а у меня есть бд на 10гб, она в .bz2  ,  когда закинул в коллаб и начал анзипить, коллаб (прошка)  сказал что я иду нахер потому что слишком много ресурсов. Вопрос , а что делать?
Диск кончился? Или память? БД есть другие, доступные из облака
источник

AW

Alex Wortega in Natural Language Processing
Yuri Baburov
Диск кончился? Или память? БД есть другие, доступные из облака
Оперативка, но там 25 гб
источник

AW

Alex Wortega in Natural Language Processing
Yuri Baburov
Диск кончился? Или память? БД есть другие, доступные из облака
Перекинуть бд в облако в смысле azure/ etc?
источник

YB

Yuri Baburov in Natural Language Processing
Alex Wortega
Перекинуть бд в облако в смысле azure/ etc?
Да.
источник

AK

Alexander Kukushkin in Natural Language Processing
Michael L
@alexkuk Вы говорили в видео о проблеме парсинга данных в решении суда. А есть натренированные библиотеки для этого?
Публичные натренированные мне неизвестны
источник

AK

Alexander Kukushkin in Natural Language Processing
Michael L
В общем не завелась наташа))
Спасибо, ошибка действительно неинформативная. Перед применением ner_tagger нужно сегментировать документ doc.segment(segmenter), подробнее в https://github.com/natasha/natasha#usage
источник

ML

Michael L in Natural Language Processing
Alexander Kukushkin
Спасибо, ошибка действительно неинформативная. Перед применением ner_tagger нужно сегментировать документ doc.segment(segmenter), подробнее в https://github.com/natasha/natasha#usage
Спасибо, начало работать после, добавления сегментации и:
pip install ipython
from IPython.display import display
источник
2020 September 23

DM

Dmitry Morozov in Natural Language Processing
доброе утро, подскажите пожалуйста структуру rubert.tar.gz. с диппавлова

На данном слайде я подгружаю веса - model.pkl.gz и токенайзер cp.320.model

Как мне сделать похожие действия с rubert.tar.gz ?
источник

DM

Dmitry Morozov in Natural Language Processing
если что, вот как rubert.tar.gz выглядит распакованным
источник

DM

Dmitry Morozov in Natural Language Processing
Dmitry Morozov
доброе утро, подскажите пожалуйста структуру rubert.tar.gz. с диппавлова

На данном слайде я подгружаю веса - model.pkl.gz и токенайзер cp.320.model

Как мне сделать похожие действия с rubert.tar.gz ?
разобрался)
источник