OSCHINA-MIRROR/modelee-xlm-roberta-large

XLM-RoBERTa (large-sized model)

Модель XLM-RoBERTa предварительно обучена на 2,5 ТБ отфильтрованных данных CommonCrawl, содержащих 100 языков. Она была представлена в статье «Неконтролируемое кросс-языковое обучение представлению в масштабе» (Unsupervised Cross-lingual Representation Learning at Scale) Конно и др. и впервые выпущена в этом репозитории.

Отказ от ответственности: команда, выпускающая XLM-RoBERTa, не писала карточку модели для этой модели, поэтому эта карточка модели была написана командой Hugging Face.

Описание модели

XLM-RoBERTa — это многоязычная версия RoBERTa. Она предварительно обучена на 2,5 ТБ отфильтрованных данных CommonCrawl, содержащих 100 языков.

RoBERTa представляет собой модель трансформаторов, предварительно обученную на большом корпусе в режиме самоконтроля. Это означает, что она предварительно обучалась только на необработанных текстах без какой-либо маркировки людьми (именно поэтому она может использовать множество общедоступных данных) с автоматическим процессом генерации входных данных и меток из этих текстов.

Более точно, она предварительно обучена с целью маскированного языкового моделирования (MLM). Принимая предложение, модель случайным образом маскирует 15% слов во входном тексте, затем пропускает всё замаскированное предложение через модель и должна предсказать замаскированные слова. Это отличается от традиционных рекуррентных нейронных сетей (RNN), которые обычно видят слова одно за другим, или от авторегрессивных моделей, таких как GPT, которые внутренне маскируют будущие токены. Это позволяет модели изучать двунаправленное представление предложения.

Таким образом, модель изучает внутреннее представление 100 языков, которое затем можно использовать для извлечения признаков, полезных для последующих задач: если у вас есть набор данных помеченных предложений, например, вы можете обучить стандартный классификатор, используя признаки, созданные моделью XLM-RoBERTa в качестве входных данных.

Предполагаемое использование и ограничения

Вы можете использовать исходную модель для маскированного языкового моделирования, но в основном она предназначена для точной настройки на последующей задаче. Смотрите модельный хаб, чтобы найти точные настройки для задачи, которая вас интересует.

Обратите внимание, что эта модель в первую очередь предназначена для точной настройки задач, использующих всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, вам следует обратить внимание на такие модели, как GPT2.

Использование

Вы можете напрямую использовать эту модель с конвейером для маскированного языкового моделирования:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-large')
>>> unmasker("Hello I'm a <mask> model.")

[{'score': 0.10563907772302628,
  'sequence': "Hello I'm a fashion model.",
  'token': 54543,
  'token_str': 'fashion'},
 {'score': 0.08015287667512894,
  'sequence': "Hello I'm a new model.",
  'token': 3525,
  'token_str': 'new'},
 {'score': 0.033413201570510864,
  'sequence': "Hello I'm a model model.",
  'token': 3299,
  'token_str': 'model'},
 {'score': 0.030217764899134636,
  'sequence': "Hello I'm a French model.",
  'token': 92265,
  'token_str': 'French'},
 {'score': 0.026436051353812218,
  'sequence': "Hello I'm a sexy model.",
  'token': 17473,
  'token_str': 'sexy'}]

Вот как использовать эту модель для получения признаков данного текста в PyTorch:

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-large")

# prepare input
text = "Replace me by any text you'd like."
``` ```
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

BibTeX entry and citation info

@article{DBLP:journals/corr/abs-1911-02116,
  author    = {Alexis Conneau и
               Kartikay Khandelwal и
               Naman Goyal и
               Vishrav Chaudhary и
               Guillaume Wenzek и
               Francisco Guzm{\'{a}}n и
               Edouard Grave и
               Myle Ott и
               Luke Zettlemoyer и
               Veselin Stoyanov},
  title     = {Unsupervised Cross-lingual Representation Learning at Scale},
  journal   = {CoRR},
  volume    = {abs/1911.02116},
  year      = {2019},
  url       = {http://arxiv.org/abs/1911.02116},
  eprinttype = {arXiv},
  eprint    = {1911.02116},
  timestamp = {Mon, 11 Nov 2019 18:38:09 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}