Size: a a a

Natural Language Processing

2021 September 11

AS

Artem Sergeev in Natural Language Processing
я никак особо не готовил, там же прямо список текстовых файлов можно скормить
--train-data-path "/content/notebooks/Data/files.list" \

Я проглядывал, что оно с ними делает, на беглый взгляд  - порезано на абзацы, влезающие по длине в seq-length
источник

МА

Максим Антонов... in Natural Language Processing
Ну то есть можно просто train.txt кормить... Спасибо, поиграюсь😜
источник

МА

Максим Антонов... in Natural Language Processing
Про шаги не понял конечно где они. Ну да ладно. После обучения надеюсь пойму.
источник

AS

Artem Sergeev in Natural Language Processing
--train-iters 4000 \

в каких-то реализациях эпохами меряют, в каких-то шагами
источник

VS

Vladimir Shitov in Natural Language Processing
Это прекрасно!
источник

А

Алена in Natural Language Processing
Всем привет! Нашла ссылку на этот чат из рид ми natasha. Можете подсказать, пожалуйста, умеет ли natasha разрешать омонимию, как, например, mystem?
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
А можете поделиться этим блокнотом?
источник

AO

Alex Orgish in Natural Language Processing
источник

AO

Alex Orgish in Natural Language Processing
И вот еще как по разному люди видят вероятности неопределенности: https://t.me/theworldisnoteasy/1335
Telegram
Малоизвестное интересное
​​Байден лопух? В ЦРУ идиоты?
Возможно. Но причина сегодняшней суперновости в ином.
Сегодня, когда «Талибан» взял под контроль весь Афганистан, мир недоумевает: как мог президент Байден так лопухнуться, заявив 8-го июля: «вероятность того, что «Талибан» захватит всю страну, крайне невелика»?
Как такое могло быть сказано президентом сверхдержавы, обладающим доступом к, казалось бы, самой секретной информации от самых продвинутых аналитиков одной из самых крутых разведок мира?
Может дело в том, что Байден просто лопух? Или в ЦРУ сидят одни идиоты?
Увы, но ситуация куда хуже. И об этом уже полвека известно и в ЦРУ, и во всех других разведках мира.

Дело в том, что при оценке рисков принимаемых решений, политики (а) полагаются на прогнозы аналитиков разведки, но при этом (б) не понимают, что стоит за конкретными значениями вероятностей, указанных в этих прогнозах.

Ведь что имел в виду Байден, говоря “highly unlikely” во фразе “But the likelihood there’s going to be the Taliban overrunning everything and owning…
источник

EE

E E in Natural Language Processing
Забавно,  получается вероятностное распределение над вероятностями...
источник
2021 September 12

YB

Yuri Baburov in Natural Language Processing
Умеет, точность примерно 96% против 90% у mystem. (Сильно варьируется от типа текстов). Недавно тут в группе пробегал пример с ударениями.
источник

NR

Nikita Repeev in Natural Language Processing
спасибо
источник

N

Natalia in Natural Language Processing
и вообще в принципе любая нейросетка всё равно её разрешает, почти ничего не пишут щас так, чтобы выдавало все варианты для форм вне контекста

иногда это как раз минус, конечно, когда формы редкие и типа "странные", выше шанс ошибки
источник

МА

Максим Антонов... in Natural Language Processing
источник

AG

Alexander Gambashidz... in Natural Language Processing
Есть похожий чат но по компьютер вижну?
источник

D•

Dan • Captain in Natural Language Processing
источник

🐙

🐙 in Natural Language Processing
Добрый вечер! В spacy или других популярных библиотеках есть быстрый способ сделать предобработку - map [«] -> ["]  символов? Или вы делаете в цикле через словарь?
источник

ID

Ivan Dolgov in Natural Language Processing
По-моему, выглядит как задача для регулярок и каких-нибудь нормализаторов текстов.
источник

🐙

🐙 in Natural Language Processing
Посоветуете что-то готовое?
источник

YB

Yuri Baburov in Natural Language Processing
Ну сделай re.sub перед преобразованием в Doc(). Или можно потом заменить токены в Doc. Зависит от задачи. Но проще всего обычно рандомизированно заменять в тренировочных данных при обучении, тогда сеть усвоит сразу оба частотных распределения, и это будет работать даже в случае если у " есть несколько разных смысловых значений.
источник