Это предобученная модель, представленная в работе «SciBERT: A Pretrained Language Model for Scientific Text», которая представляет собой модель BERT, обученную на научном тексте.
Корпус для обучения составили статьи из Semantic Scholar. Размер корпуса — 1,14 млн статей, 3,1 млрд токенов. В обучении использовался полный текст статей, а не только аннотации.
У SciBERT есть собственный словарь токенизации (scivocab), который оптимально подходит для корпуса для обучения. Мы обучили версии с учётом регистра и без учёта регистра.
Доступные модели:
scibert_scivocab_cased
scibert_scivocab_uncased
Исходный репозиторий можно найти здесь.
При использовании этих моделей процитируйте следующую работу:
@inproceedings{beltagy-etal-2019-scibert,
title = "SciBERT: A Pretrained Language Model for Scientific Text",
author = "Beltagy, Iz and Lo, Kyle and Cohan, Arman",
booktitle = "EMNLP",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D19-1371"
}
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )