BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang
Статья:
https://arxiv.org/abs/1901.08746 BioBERT pre-trained weights:
https://github.com/naver/biobert-pretrainedКод для fine-tuning на NER/RE/QA:
https://github.com/dmis-lab/biobert Работа из серии “давайте прикрутим BERT ещё к какой-нибудь задаче и сделаем новый state-of-the-art”. Прикрутили BERT для анализа биомедицинских текстов.
Причём прикрутили не просто BERT, а дообученный на биомед текстах (BioBERT).
BioBERT = 1) BERT (претренированный на general domain типа En-Wikipedia, BookCorpus) + 2) претренировка на биомед текстах (PubMed abstracts, PMC full texts) + 3) fine-tuning на конкретную задачу.
Проверяли на задачах: Named Entity Extraction, Relation Extraction, Question Answering.
Что интересно, некоторые из задач с крайне маленькими датасетами (QA дообучался на 327, 486 или 618 примерах; NER и RE максимум на нескольких десятках тысяч, 30681 -- самый крупный датасет).
В общем, как полагается, хорошо побили предыдущие результаты.
Поразительно, как хорошо работает на мелких датасетах в QA.
В итоге новый кубик в копилку тех, кто работает с биомед текстами.
Использовали свою платформу NSML (NAVER Smart Machine Learning, подробнее тут:
https://arxiv.org/abs/1712.05902, NSML: A Machine Learning Platform That Enables You to Focus on Your Models).