OSCHINA-MIRROR/modelee-roberta-large

far from neutral. Поэтому модель может иметь предвзятые предсказания:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='roberta-large')
>>> unmasker("The man worked as a <mask>.")

[{'sequence': '<s>The man worked as a mechanic.</s>',
  'score': 0.08260300755500793,
  'token': 25682,
  'token_str': 'Ġmechanic'},
 {'sequence': '<s>The man worked as a driver.</s>',
  'score': 0.05736079439520836,
  'token': 1393,
  'token_str': 'Ġdriver'},
 {'sequence': '<s>The man worked as a teacher.</s>',
  'score': 0.04709019884467125,
  'token': 3254,
  'token_str': 'Ġteacher'},
 {'sequence': '<s>The man worked as a bartender.</s>',
  'score': 0.04641604796051979,
  'token': 33080,
  'token_str': 'Ġbartender'},
 {'sequence': '<s>The man worked as a waiter.</s>',
  'score': 0.04239227622747421,
  'token': 38233,
  'token_str': 'Ġwaiter'}]

>>> unmasker("The woman worked as a <mask>.")

[{'sequence': '<s>The woman worked as a nurse.</s>',
  'score': 0.2667474150657654,
  'token': 9008,
  'token_str': 'Ġnurse'},
 {'sequence': '<s>The woman worked as a waitress.</s>',
  'score': 0.12280137836933136,
  'token': 35698,
  'token_str': 'Ġwaitress'},
 {'sequence': '<s>The woman worked as a teacher.</s>',
  'score': 0.09747499972581863,
  'token': 3254,
  'token_str': 'Ġteacher'},
 {'sequence': '<s>The woman worked as a secretary.</s>',
  'score': 0.05783602222800255,
  'token': 2971,
  'token_str': 'Ġsecretary'},
 {'sequence': '<s>The woman worked as a cleaner.</s>',
  'score': 0.05576248839497566,
  'token': 16126,
  'token_str': 'Ġcleaner'}]

Этот уклон также повлияет на все доработанные версии этой модели.

Тренировочные данные

Модель RoBERTa была предварительно обучена на объединении пяти наборов данных:

BookCorpus — набор данных, состоящий из 11 038 неопубликованных книг;
English Wikipedia (исключая списки, таблицы и заголовки);
CC-News — набор данных, содержащий 63 миллиона новостных статей на английском языке, собранных в период с сентября 2016 года по февраль 2019 года;
OpenWebText — открытый набор данных для воссоздания набора данных WebText, используемого для обучения GPT-2;
Stories — набор данных, содержащий подмножество данных CommonCrawl, отфильтрованных так, чтобы соответствовать стилю историй Winograd schemas.

Вместе эти наборы данных весят 160 ГБ текста.

Процедура тренировки

Предварительная обработка

Тексты токенизируются с использованием байтовой версии Byte-Pair Encoding (BPE) и размера словаря 50 000. Входы модели принимают фрагменты из 512 последовательных токенов, которые могут охватывать документы. Начало нового документа отмечено <s>, а конец — </s>.

Детали процедуры маскирования для каждого предложения следующие:

15% токенов маскируются.
В 80% случаев замаскированные токены заменяются на <mask>.
В 10% случаев замаскированные токены заменяются случайным токеном (отличным от того, который они заменяют).
В оставшихся 10% случаях замаскированные токены остаются как есть.

В отличие от BERT, маскирование выполняется динамически во время предварительного обучения (например, оно меняется на каждой эпохе и не является фиксированным).

Предварительное обучение

Модель обучалась на 1024 GPU V100 в течение 500 тыс. шагов с размером пакета 8K и длиной последовательности 512. Используемый оптимизатор — Adam с коэффициентом обучения 4e-4, \(\beta_{1} = 0.9\), \(\beta_{2} = 0.98\) и \(\epsilon = 1e-6\), затуханием веса 0,01, прогревом коэффициента обучения в течение 30 000 шагов и линейным уменьшением коэффициента обучения после.

Результаты оценки

При доработке для последующих задач эта модель достигает следующих результатов:

Результаты теста Glue:

Задача	MNLI	QQP	QNLI	SST-2	CoLA	STS-B	MRPC	RTE
	90.2	92.2	94.7	96.4	68.0	96.4	90.9	86.6

Информация о BibTeX и цитировании:

@article{DBLP:journals/corr/abs-1907-11692,
  author    = {Yinhan Liu and
               Myle Ott},
  title     = {Roberta: A robustly optimized BERT pretraining approach},
  journal   = {CoRR},
  volume    = {abs/1907.11692},
  year      = {2019},
  url       = {https://arxiv.org/abs/1907.11692}
}
``` Наман Гоял, Цзинфэй Ду, Мандар Джоши, Данци Чэнь, Омер Леви, Майк Льюис, Люк Зеттемолйер и Веселин Стоянов.

RoBERTa: A Robustly Optimized BERT Pretraining Approach.

Журнал: CoRR.

Том: abs/1907.11692.

Год: 2019.

URL: http://arxiv.org/abs/1907.11692.

Архивная префиксация: arXiv.

Электронная печать: 1907.11692.

Отметка времени: четверг, 01 августа 2019 08:59:33 +0200.

Biburl: https://dblp.org/rec/journals/corr/abs-1907-11692.bib.

Источник библиографии: база данных компьютерных наук dblp, https://dblp.org.

*Примечание: часть текста запроса не удалось перевести.*