Size: a a a

Natural Language Processing

2021 September 17

OR

Oleg Ruban in Natural Language Processing
Всем привет) Подскажите, существует ли хранилище датасетов по иностранным СМИ как у Razdel (тексты статей, заголовки и т.п.)?
источник

TM

Toemik Mnemonic in Natural Language Processing
А что за ембединг модель с 420 деменшенами?
источник

N

Nikolay in Natural Language Processing
Привет. Как вы парсите данные для перевода с сайта opus? Например, для пары английский-русский английский файл весит >150Гб, русский около 40 + файл соответствия предложений из этих двух файлов. Разбил большие файлы на 1000 мелких, потом на баше через awk и grep, но работает медленно (2 миллиона параллельных предложений за 12 часов, хотя работает параллельно в 20 потоков).  Как бы это дело ускорить?
P.S. знаю про opus_read, он просто падает на этих файлах
источник

N

Natalia in Natural Language Processing
и про все opus tools тоже?
источник

N

Nikolay in Natural Language Processing
Видел. Но кроме opus_read ничего подходящего не нашел
источник

N

Natalia in Natural Language Processing
-p {raw,xml,parsed}, --preprocess {raw,xml,parsed}
                   Preprocess-type (raw, xml or parsed, default=xml)
источник

N

Natalia in Natural Language Processing
и это parsed не помогает?
источник

N

Natalia in Natural Language Processing
плюс --leave_non_alignments_out (чтоб выкидывать явно ненужные)
источник

N

Nikolay in Natural Language Processing
Так и делал, через пару минут просто падает и все
источник

N

Natalia in Natural Language Processing
ну и в принципе ж данные их должны быть в huggingface, оттуда их не помогает взять?
источник

N

Nikolay in Natural Language Processing
Там вроде бы обученные модели, самих данных не видел. Если есть, то это отлично
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
и мб там дальше ещё
источник

N

Natalia in Natural Language Processing
не всё, конечно: https://huggingface.co/datasets?search=opus
источник

N

Nikolay in Natural Language Processing
Спасибо
источник

AF

Alexander Fedorenko in Natural Language Processing
источник

N

Narges in Natural Language Processing
Thank you...👍
источник

AF

Alexander Fedorenko in Natural Language Processing
good luck
источник

AS

Alexander Subbotin in Natural Language Processing
А такое же только для scam call detection?
источник

DD

David Dale in Natural Language Processing
Всем привет!
Если у кого-то из вас есть право высылать приглосы на arXiv в категории cs.CL, можете меня туда эндорснуть?
https://arxiv.org/auth/endorse?x=CI8F7Z
источник