SciBERT

Это предобученная модель, представленная в работе «SciBERT: A Pretrained Language Model for Scientific Text», которая представляет собой модель BERT, обученную на научном тексте.

Корпус для обучения составили статьи из Semantic Scholar. Размер корпуса — 1,14 млн статей, 3,1 млрд токенов. В обучении использовался полный текст статей, а не только аннотации.

У SciBERT есть собственный словарь токенизации (scivocab), который оптимально подходит для корпуса для обучения. Мы обучили версии с учётом регистра и без учёта регистра.

Доступные модели:

scibert_scivocab_cased
scibert_scivocab_uncased

Исходный репозиторий можно найти здесь.

При использовании этих моделей процитируйте следующую работу:

@inproceedings{beltagy-etal-2019-scibert,
    title = "SciBERT: A Pretrained Language Model for Scientific Text",
    author = "Beltagy, Iz  and Lo, Kyle  and Cohan, Arman",
    booktitle = "EMNLP",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-1371"
}

OSCHINA-MIRROR/modelee-scibert_scivocab_uncased

SciBERT

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-scibert_scivocab_uncased .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

SciBERT

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-scibert_scivocab_uncased