это правда но это же не отменяет того, что вы примерно в 6 тысяч раз уменьшаете языковое разнообразие и, значит, объект лингвистических и нлпшных штудий, если занимаетесь только английском
если вы хотите, чтобы модельки действительно имели хорошую языковую обобщающую способность, то только английский -- это дикий оверфит
и зачем нам одна модель под все языки? у каждого языка своя особенность, на этом можно играть
вообще-то в статтьях указано для какого языка было проведено исследование(сама статтья обычно на английском написана)
да вы что! по приколу регулярно занимаюсь тем, что беру и поиском ищу хотя бы слово English в тексте, особенно там, где не заявлена многоязычность экспериментов
А разве не логично, что если язык нигде отдельно не указан, а статья написана на английском, то она об обработке английского? Понятно, что хорошим тоном было бы указать язык, но в чем, собственно, проблема, если он не указан?
А разве не логично, что если язык нигде отдельно не указан, а статья написана на английском, то она об обработке английского? Понятно, что хорошим тоном было бы указать язык, но в чем, собственно, проблема, если он не указан?
ну на моём опыте статей про каталанский вообще мало но я и статей про английский, в которых непонятно, что они про английский, не видел, так что полагаться на него я стал бы не
И много статей про обработку каталанского, где узнать, что она про каталанский, можно только с помощью ясновидения?
Выглядит, как отличная задача для студента или стажера: собрать датасет из arXiv и ACL, и затем проанализовать, какие языки там анализируются (и в какой части статей вовсе нет упоминания языков).
коллеги, мы все-таки делаем новый запуск нашего курса Natural Language Processing; курс в этот раз будет онлайн, занятия будут по Zoom; вести буду я, все материалы будут на английском, но сами занятия будут на русском; квизы и задания будут на Степике, приглашения на него разошлем всем, кто зарегистрируется в форме; первая лекция будет в 18:30 во вторник, 29 сентября; канал для общения по курсу будет ODS.ai #huawei_nlp_course