Size: a a a

Natural Language Processing

2020 December 14

E

Elena in Natural Language Processing
а насколько большой датасет?
источник

E

Elena in Natural Language Processing
апи гугла позволят около 10 тысяч в день переводить бесплатно,  если я не ошибаюсь
источник

IN

Ilya Nikitin in Natural Language Processing
Присоединюсь к вопросу, потому что мы с Катей работаем над одним проектом. Вот решили спросить в индустрии, использовал ли кто-то перевод датасетов в своей работе и, если да, то какие были результаты?

Да, пока думаем как раз про Google Translate API + ручное исправление

Создаем русскоязычную копию MultiWOZ, предложения там довольно простые. Это не что-то сложное и художественное
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
источник

E

Elena in Natural Language Processing
Я использовала и АПИ гугла и HuggingFace
источник

E

Elena in Natural Language Processing
Но не для русского языка, поэтому про качество не скажу ничего. По простоте использования HuggingFace конечно выигрывает вообще у всех
источник

OR

Oleg Radchenko in Natural Language Processing
Elena
апи гугла позволят около 10 тысяч в день переводить бесплатно,  если я не ошибаюсь
существуют сторонние решения, которые используют ajax-запросы к гугл-транслейту. неограниченно и бесплатно.
они не очень надежные в плане того что гугл их прикрывает регулярно.
разумеется, я не рекомендую ими пользоваться, так как это явно нелегально, но просто для информации - они есть
источник

E

Elena in Natural Language Processing
Я что-то читала про это
источник

E

Elena in Natural Language Processing
Ilya Nikitin
Присоединюсь к вопросу, потому что мы с Катей работаем над одним проектом. Вот решили спросить в индустрии, использовал ли кто-то перевод датасетов в своей работе и, если да, то какие были результаты?

Да, пока думаем как раз про Google Translate API + ручное исправление

Создаем русскоязычную копию MultiWOZ, предложения там довольно простые. Это не что-то сложное и художественное
у гугла лучше качество перевода, Hugging Face бесплатный и простой в использовании. Такой был мой результат :)
источник

IN

Ilya Nikitin in Natural Language Processing
датасет представляет собой диалоги между пользователем и чатботом на темы заказа такси, о барах/кафе/ресторанах, достопримечательностях, бронировании мест в отелях и тд

просто размышляем, насколько он будет естественным, если переводить фразы с английского, а не собирать их самим

слоты с адресами/местами мы сможем заполнить российскими эквивалентами, потому что уже в принципе собрали эту информацию
источник

E

Elena in Natural Language Processing
попробуйте варианты, которые вам тут посоветовали, и нам расскажите, что получилось
источник

KD

Katya Dodonova in Natural Language Processing
обязательно!)
источник

KA

Katya Artemova in Natural Language Processing
Ilya Nikitin
Присоединюсь к вопросу, потому что мы с Катей работаем над одним проектом. Вот решили спросить в индустрии, использовал ли кто-то перевод датасетов в своей работе и, если да, то какие были результаты?

Да, пока думаем как раз про Google Translate API + ручное исправление

Создаем русскоязычную копию MultiWOZ, предложения там довольно простые. Это не что-то сложное и художественное
Часть  RussianSuperGLUE переведена и исправлена проф. переводчиками
источник

KA

Katya Artemova in Natural Language Processing
Еще мы использовали переводы BoolQ для предобучения для DaNetQA, как-то работало  и помогало – повышало качество, то есть :)  Но качество перевода мы не оценивали
источник

KA

Katya Artemova in Natural Language Processing
Сейчас еще несколько датасетов пытаемся переводить, пока выглядит не очень оптимистично
источник

OR

Oleg Radchenko in Natural Language Processing
в естественный перевод пока никто не научился вроде бы
источник

IN

Ilya Nikitin in Natural Language Processing
Katya Artemova
Часть  RussianSuperGLUE переведена и исправлена проф. переводчиками
а дорого обошлось нанять профессиональных переводчиков на такую задачу?
источник

KA

Katya Artemova in Natural Language Processing
Это делали коллеги из сбера :)))
источник

IN

Ilya Nikitin in Natural Language Processing
Katya Artemova
Это делали коллеги из сбера :)))
Понял. Спросим куратора нашего проекта из Сбера Татьяну Шаврину об подобных вещах тогда)
источник

KA

Katya Artemova in Natural Language Processing
Дада, она как раз должна знать ;)
источник