far from neutral. Поэтому модель может иметь предвзятые предсказания:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='roberta-large')
>>> unmasker("The man worked as a <mask>.")
[{'sequence': '<s>The man worked as a mechanic.</s>',
'score': 0.08260300755500793,
'token': 25682,
'token_str': 'Ġmechanic'},
{'sequence': '<s>The man worked as a driver.</s>',
'score': 0.05736079439520836,
'token': 1393,
'token_str': 'Ġdriver'},
{'sequence': '<s>The man worked as a teacher.</s>',
'score': 0.04709019884467125,
'token': 3254,
'token_str': 'Ġteacher'},
{'sequence': '<s>The man worked as a bartender.</s>',
'score': 0.04641604796051979,
'token': 33080,
'token_str': 'Ġbartender'},
{'sequence': '<s>The man worked as a waiter.</s>',
'score': 0.04239227622747421,
'token': 38233,
'token_str': 'Ġwaiter'}]
>>> unmasker("The woman worked as a <mask>.")
[{'sequence': '<s>The woman worked as a nurse.</s>',
'score': 0.2667474150657654,
'token': 9008,
'token_str': 'Ġnurse'},
{'sequence': '<s>The woman worked as a waitress.</s>',
'score': 0.12280137836933136,
'token': 35698,
'token_str': 'Ġwaitress'},
{'sequence': '<s>The woman worked as a teacher.</s>',
'score': 0.09747499972581863,
'token': 3254,
'token_str': 'Ġteacher'},
{'sequence': '<s>The woman worked as a secretary.</s>',
'score': 0.05783602222800255,
'token': 2971,
'token_str': 'Ġsecretary'},
{'sequence': '<s>The woman worked as a cleaner.</s>',
'score': 0.05576248839497566,
'token': 16126,
'token_str': 'Ġcleaner'}]
Этот уклон также повлияет на все доработанные версии этой модели.
Модель RoBERTa была предварительно обучена на объединении пяти наборов данных:
Вместе эти наборы данных весят 160 ГБ текста.
Тексты токенизируются с использованием байтовой версии Byte-Pair Encoding (BPE) и размера словаря 50 000. Входы модели принимают фрагменты из 512 последовательных токенов, которые могут охватывать документы. Начало нового документа отмечено <s>
, а конец — </s>
.
Детали процедуры маскирования для каждого предложения следующие:
<mask>
.В отличие от BERT, маскирование выполняется динамически во время предварительного обучения (например, оно меняется на каждой эпохе и не является фиксированным).
Модель обучалась на 1024 GPU V100 в течение 500 тыс. шагов с размером пакета 8K и длиной последовательности 512. Используемый оптимизатор — Adam с коэффициентом обучения 4e-4, \(\beta_{1} = 0.9\), \(\beta_{2} = 0.98\) и \(\epsilon = 1e-6\), затуханием веса 0,01, прогревом коэффициента обучения в течение 30 000 шагов и линейным уменьшением коэффициента обучения после.
При доработке для последующих задач эта модель достигает следующих результатов:
Результаты теста Glue:
Задача | MNLI | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE |
---|---|---|---|---|---|---|---|---|
90.2 | 92.2 | 94.7 | 96.4 | 68.0 | 96.4 | 90.9 | 86.6 |
Информация о BibTeX и цитировании:
@article{DBLP:journals/corr/abs-1907-11692,
author = {Yinhan Liu and
Myle Ott},
title = {Roberta: A robustly optimized BERT pretraining approach},
journal = {CoRR},
volume = {abs/1907.11692},
year = {2019},
url = {https://arxiv.org/abs/1907.11692}
}
``` Наман Гоял, Цзинфэй Ду, Мандар Джоши, Данци Чэнь, Омер Леви, Майк Льюис, Люк Зеттемолйер и Веселин Стоянов.
RoBERTa: A Robustly Optimized BERT Pretraining Approach.
Журнал: CoRR.
Том: abs/1907.11692.
Год: 2019.
URL: http://arxiv.org/abs/1907.11692.
Архивная префиксация: arXiv.
Электронная печать: 1907.11692.
Отметка времени: четверг, 01 августа 2019 08:59:33 +0200.
Biburl: https://dblp.org/rec/journals/corr/abs-1907-11692.bib.
Источник библиографии: база данных компьютерных наук dblp, https://dblp.org.
*Примечание: часть текста запроса не удалось перевести.*
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )