Паспорт модели для T5 Base

Содержание

Сведения о модели
Применение
Предвзятость, риски и ограничения
Детали обучения
Оценка
Воздействие на окружающую среду
Цитирование
Авторы паспорта модели
Как начать работу с моделью

Сведения о модели

Описание модели

Разработчики Text-To-Text Transfer Transformer (T5) пишут:

С помощью T5 мы предлагаем переосмыслить все задачи НЛП в едином формате «текст-в-текст», где входными и выходными данными всегда являются текстовые строки, в отличие от моделей в стиле BERT, которые могут выводить только класс или диапазон входных данных. Наша текстовая структура позволяет использовать одну и ту же модель, функцию потерь и гиперпараметры для любой задачи НЛП.

T5-Base — это контрольная точка с 220 миллионами параметров.

Разработано: Колином Раффелем, Ноамом Шазиром, Адамом Робертсом, Кэтрин Ли, Шараном Нарангом, Майклом Матеной, Янки Чжоу, Вей Ли, Питером Дж. Лю. См. соответствующую статью и репозиторий GitHub.
Тип модели: Языковая модель.
Язык(и) (НЛП): Английский, французский, румынский, немецкий.
Лицензия: Apache 2.0.
Связанные модели: Все контрольные точки T5.
Ресурсы для получения дополнительной информации:

Применение

Прямое использование и последующее применение

Разработчики пишут в блоге, что модель:

Наша текстовая структура позволяет нам использовать одну и ту же модель, функцию потерь и гиперпараметры в любой задаче НЛП, включая машинный перевод, обобщение документов, ответы на вопросы и классификационные задачи (например, анализ настроений). Мы можем даже применить T5 к задачам регрессии, обучив его предсказывать строковое представление числа вместо самого числа.

См. пост в блоге и исследовательскую статью для получения более подробной информации.

Использование вне области применения

Требуется дополнительная информация.

Предвзятость, риски и ограничения

Требуется дополнительная информация.

Детали обучения

Данные для обучения

Модель предварительно обучена на Colossal Clean Crawled Corpus (C4), который был разработан и выпущен в контексте той же исследовательской статьи, что и T5.

Модель была предварительно обучена на многозадачной смеси неконтролируемых (1.) и контролируемых задач (2.) При этом использовались следующие наборы данных для (1.) и (2.):

Наборы данных, используемые для неконтролируемой цели шумоподавления:

C4.
Wiki-DPR.

Наборы данных, используемые для контролируемого моделирования языка текста:

Суждение о приемлемости предложения
- CoLA Warstadt et al., 2018.
Анализ настроений
- SST-2 [Socher et al., 2013

Paraphrasing/sentence similarity: — MRPC [Dolan and Brockett, 2005] — STS-B [Ceret al., 2017] — QQP [Iyer et al., 2017]

Natural language inference: — MNLI [Williams et al., 2017] — QNLI [Rajpurkar et al.,2016] — RTE [Dagan et al., 2005] — CB [De Marneff et al., 2019]

Sentence completion: — COPA [Roemmele et al., 2011]

Word sense disambiguation: — WIC [Pilehvar and Camacho-Collados, 2018]

Question answering: — MultiRC [Khashabi et al., 2018] — ReCoRD [Zhang et al., 2018] — BoolQ [Clark et al., 2019]

Training Procedure

В своём абстракте разработчики модели пишут:

В этой статье мы исследуем ландшафт методов трансферного обучения для НЛП, представляя унифицированную структуру, которая преобразует каждую языковую задачу в формат «текст-в-текст». Наше систематическое исследование сравнивает цели предварительного обучения, архитектуры, немаркированные наборы данных, подходы к переносу и другие факторы на десятках задач понимания языка.

Представленная структура, T5-фреймворк, включает в себя процедуру обучения, объединяющую подходы, изученные в статье. Подробнее см. в исследовательской работе.

Оценка

Тестовые данные, факторы и метрики

Разработчики оценили модель по 24 задачам, см. исследовательскую работу для получения полной информации.

Результаты

Полные результаты для T5-Base см. в исследовательской работе, таблица 14.

Воздействие на окружающую среду

Выбросы углерода можно оценить с помощью калькулятора воздействия машинного обучения, представленного в Lacoste et al. (2019).

Тип оборудования: Google Cloud TPU Pods
Использованные часы: Требуется дополнительная информация
Облачный провайдер: GCP
Вычислительный регион: Требуется дополнительная информация
Выброшенный углерод: Требуется дополнительная информация

Цитирование

BibTeX:

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA:

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

Авторы карточки модели

Эта карточка модели была написана командой Hugging Face.

Как начать работу с моделью

Используйте приведённый ниже код для начала работы с моделью.

Нажмите, чтобы развернуть

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5Model.from_pretrained("t5-base")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states =
``` outputs.last_hidden_state

См. документацию Hugging Face T5 (https://huggingface.co/docs/transformers/model_doc/t5#transformers.T5Model) и блокнот Colab (https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/main/notebooks/t5-trivia.ipynb), созданный разработчиками модели, для получения дополнительных примеров.

OSCHINA-MIRROR/modelee-t5-base

Паспорт модели для T5 Base

Содержание

Сведения о модели

Описание модели

Применение

Прямое использование и последующее применение

Использование вне области применения

Предвзятость, риски и ограничения

Рекомендации

Детали обучения

Данные для обучения

Training Procedure

Оценка

Тестовые данные, факторы и метрики

Результаты

Воздействие на окружающую среду

Цитирование

Авторы карточки модели

Как начать работу с моделью

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-t5-base .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Паспорт модели для T5 Base

Содержание

Сведения о модели

Описание модели

Применение

Прямое использование и последующее применение

Использование вне области применения

Предвзятость, риски и ограничения

Рекомендации

Детали обучения

Данные для обучения

Training Procedure

Оценка

Тестовые данные, факторы и метрики

Результаты

Воздействие на окружающую среду

Цитирование

Авторы карточки модели

Как начать работу с моделью

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-t5-base