1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/modelee-t5-base

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Паспорт модели для T5 Base

Содержание

  1. Сведения о модели
  2. Применение
  3. Предвзятость, риски и ограничения
  4. Детали обучения
  5. Оценка
  6. Воздействие на окружающую среду
  7. Цитирование
  8. Авторы паспорта модели
  9. Как начать работу с моделью

Сведения о модели

Описание модели

Разработчики Text-To-Text Transfer Transformer (T5) пишут:

С помощью T5 мы предлагаем переосмыслить все задачи НЛП в едином формате «текст-в-текст», где входными и выходными данными всегда являются текстовые строки, в отличие от моделей в стиле BERT, которые могут выводить только класс или диапазон входных данных. Наша текстовая структура позволяет использовать одну и ту же модель, функцию потерь и гиперпараметры для любой задачи НЛП.

T5-Base — это контрольная точка с 220 миллионами параметров.

Применение

Прямое использование и последующее применение

Разработчики пишут в блоге, что модель:

Наша текстовая структура позволяет нам использовать одну и ту же модель, функцию потерь и гиперпараметры в любой задаче НЛП, включая машинный перевод, обобщение документов, ответы на вопросы и классификационные задачи (например, анализ настроений). Мы можем даже применить T5 к задачам регрессии, обучив его предсказывать строковое представление числа вместо самого числа.

См. пост в блоге и исследовательскую статью для получения более подробной информации.

Использование вне области применения

Требуется дополнительная информация.

Предвзятость, риски и ограничения

Требуется дополнительная информация.

Рекомендации

Требуется дополнительная информация.

Детали обучения

Данные для обучения

Модель предварительно обучена на Colossal Clean Crawled Corpus (C4), который был разработан и выпущен в контексте той же исследовательской статьи, что и T5.

Модель была предварительно обучена на многозадачной смеси неконтролируемых (1.) и контролируемых задач (2.) При этом использовались следующие наборы данных для (1.) и (2.):

  1. Наборы данных, используемые для неконтролируемой цели шумоподавления:
  1. Наборы данных, используемые для контролируемого моделирования языка текста:
  • Суждение о приемлемости предложения
  • Анализ настроений
    • SST-2 [Socher et al., 2013

Paraphrasing/sentence similarity: — MRPC [Dolan and Brockett, 2005] — STS-B [Ceret al., 2017] — QQP [Iyer et al., 2017]

Natural language inference: — MNLI [Williams et al., 2017] — QNLI [Rajpurkar et al.,2016] — RTE [Dagan et al., 2005] — CB [De Marneff et al., 2019]

Sentence completion: — COPA [Roemmele et al., 2011]

Word sense disambiguation: — WIC [Pilehvar and Camacho-Collados, 2018]

Question answering: — MultiRC [Khashabi et al., 2018] — ReCoRD [Zhang et al., 2018] — BoolQ [Clark et al., 2019]

Training Procedure

В своём абстракте разработчики модели пишут:

В этой статье мы исследуем ландшафт методов трансферного обучения для НЛП, представляя унифицированную структуру, которая преобразует каждую языковую задачу в формат «текст-в-текст». Наше систематическое исследование сравнивает цели предварительного обучения, архитектуры, немаркированные наборы данных, подходы к переносу и другие факторы на десятках задач понимания языка.

Представленная структура, T5-фреймворк, включает в себя процедуру обучения, объединяющую подходы, изученные в статье. Подробнее см. в исследовательской работе.

Оценка

Тестовые данные, факторы и метрики

Разработчики оценили модель по 24 задачам, см. исследовательскую работу для получения полной информации.

Результаты

Полные результаты для T5-Base см. в исследовательской работе, таблица 14.

Воздействие на окружающую среду

Выбросы углерода можно оценить с помощью калькулятора воздействия машинного обучения, представленного в Lacoste et al. (2019).

  • Тип оборудования: Google Cloud TPU Pods
  • Использованные часы: Требуется дополнительная информация
  • Облачный провайдер: GCP
  • Вычислительный регион: Требуется дополнительная информация
  • Выброшенный углерод: Требуется дополнительная информация

Цитирование

BibTeX:

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA:

  • Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

Авторы карточки модели

Эта карточка модели была написана командой Hugging Face.

Как начать работу с моделью

Используйте приведённый ниже код для начала работы с моделью.

Нажмите, чтобы развернуть
from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5Model.from_pretrained("t5-base")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states =
``` outputs.last_hidden_state

См. документацию Hugging Face T5 (https://huggingface.co/docs/transformers/model_doc/t5#transformers.T5Model) и блокнот Colab (https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/main/notebooks/t5-trivia.ipynb), созданный разработчиками модели, для получения дополнительных примеров.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/modelee-t5-base.git
git@api.gitlife.ru:oschina-mirror/modelee-t5-base.git
oschina-mirror
modelee-t5-base
modelee-t5-base
main