Size: a a a

Natural Language Processing

2021 February 11

SancheZz Мов in Natural Language Processing
dePuff
И всё это с качеством "чуть лучше чем первые три предложения"
Пока кто-то не сделает наконец-то руПегасус
источник

SancheZz Мов in Natural Language Processing
И там будет уже что-то повеселее
источник

A

Anton in Natural Language Processing
SancheZz Мов
Пока кто-то не сделает наконец-то руПегасус
👍🏻точно, я сначала текст переводил, потом делал суммаризацию, потом обратно на русский делал перевод. Вполне неплохой был результат.
источник

SancheZz Мов in Natural Language Processing
Anton
👍🏻точно, я сначала текст переводил, потом делал суммаризацию, потом обратно на русский делал перевод. Вполне неплохой был результат.
Это костыль) но рабочий)
источник

SancheZz Мов in Natural Language Processing
Упираемся в качество переводчика
источник

FF

Futorio Franklin in Natural Language Processing
источник

AG

Alex Gruzdev in Natural Language Processing
Из-за чего может быть ошибка "NotFoundError: Key cls/predictions/transform/dense/kernel not found in checkpoint" ? Я пытаюсь вызвать предтренированную модель SBERT: load_trained_model_from_checkpoint(config_path, checkpoint_path, training=True). Если же training=False, то все ОК. Модель выводится. Содержимое модели под tensorflow использую как есть:
источник

SancheZz Мов in Natural Language Processing
Alex Gruzdev
Из-за чего может быть ошибка "NotFoundError: Key cls/predictions/transform/dense/kernel not found in checkpoint" ? Я пытаюсь вызвать предтренированную модель SBERT: load_trained_model_from_checkpoint(config_path, checkpoint_path, training=True). Если же training=False, то все ОК. Модель выводится. Содержимое модели под tensorflow использую как есть:
Нужно иметь тф модуль формат скорее всего
источник

SK

Sasha Korovii in Natural Language Processing
Подскажите как в BERT запихнуть текст больше 512 токенов, интересует задача sentimental analysis. Есть датасет с размеченными новостями, но тексты больше 512 токенов.
источник

d

dimakarp1996 in Natural Language Processing
Sasha Korovii
Подскажите как в BERT запихнуть текст больше 512 токенов, интересует задача sentimental analysis. Есть датасет с размеченными новостями, но тексты больше 512 токенов.
Использовать перед ним другую модель для суммаризации?
источник

БД

Борис Добров... in Natural Language Processing
Alexandra Zh
спасибо, погляжу, что там и как
Для abstract summarization неустранимая проблема галлюцинаций. Есть приложения, где это неважно.
Но если ошибки важны, то только экстрагирование.
источник

d

dePuff in Natural Language Processing
Sasha Korovii
Подскажите как в BERT запихнуть текст больше 512 токенов, интересует задача sentimental analysis. Есть датасет с размеченными новостями, но тексты больше 512 токенов.
А на сколько больше?
источник

OM

Orzhan Mikhail in Natural Language Processing
Sasha Korovii
Подскажите как в BERT запихнуть текст больше 512 токенов, интересует задача sentimental analysis. Есть датасет с размеченными новостями, но тексты больше 512 токенов.
Иногда берут перекрывающиеся 512-токенные окна, а потом усредняют результат
источник

DD

David Dale in Natural Language Processing
Sasha Korovii
Подскажите как в BERT запихнуть текст больше 512 токенов, интересует задача sentimental analysis. Есть датасет с размеченными новостями, но тексты больше 512 токенов.
Проще всего порезать текст на пересекающиеся кусочки и прогнать через Берт каждый в отдельности, а потом результат как-то агрегировать
источник

SK

Sasha Korovii in Natural Language Processing
dePuff
А на сколько больше?
от 700 до 1200 токенов
источник

d

dePuff in Natural Language Processing
И всё это ради 0,01-0,02 метрики в сравнение с чуть более древними, но более шустрыми подходами
источник

A

Anton in Natural Language Processing
Борис Добров
Для abstract summarization неустранимая проблема галлюцинаций. Есть приложения, где это неважно.
Но если ошибки важны, то только экстрагирование.
Это да, иногда мемы прям проскакивают
источник

БД

Борис Добров... in Natural Language Processing
Sasha Korovii
Подскажите как в BERT запихнуть текст больше 512 токенов, интересует задача sentimental analysis. Есть датасет с размеченными новостями, но тексты больше 512 токенов.
Нормальные новости имеют структуру "перевернутой пирамиды", все самое важное в  lead.
Для "просто" аннотации хватит 512 токенов.
Сложнее для аннотации по запросу.
источник

A

Anton in Natural Language Processing
Борис Добров
Нормальные новости имеют структуру "перевернутой пирамиды", все самое важное в  lead.
Для "просто" аннотации хватит 512 токенов.
Сложнее для аннотации по запросу.
У него вопрос про сантименты ))
источник

AZ

Alexandra Zh in Natural Language Processing
Борис Добров
Для abstract summarization неустранимая проблема галлюцинаций. Есть приложения, где это неважно.
Но если ошибки важны, то только экстрагирование.
разумеется. тут вообще никаких сомнений нет
источник