GPT2 для нескольких языков
中文说明 | English
Китайская предварительно обученная модель с 15 миллиардами параметров доступна для скачивания по ссылке:
[Google Drive скачать] (https://drive.google.com/file/d/1IzWpQ6I2IgfV7CldZvFJnZ9byNDZdO4n)
SHA256: 4a6e5124df8db7ac2bdd902e6191b807a6983a7f5d09fb10ce011f9a073b183e
Корпус для обучения взят из THUCNews и nlp_chinese_corpus и после очистки составляет около 15 ГБ текста.
Модель была обучена на Cloud TPU Pod v3-256 (https://cloud.google.com/tpu/docs/types-zones#types) за 10 тысяч шагов.
Чтобы испытать эффект от китайской предварительно обученной модели с 15 миллиардами параметров, достаточно дважды кликнуть мышкой (не считая процесса авторизации в Colab):
[Colab Notebook] (https://colab.research.google.com/github/imcaspar/gpt2-ml/blob/master/pretrained_model_demo.ipynb)
Содержание этого проекта предназначено только для технических исследований и не должно использоваться в качестве вывода.
@misc{GPT2-ML,
author = {Zhibo Zhang},
title = {GPT2-ML: GPT-2 for Multiple Languages},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/imcaspar/gpt2-ml}},
}
https://github.com/google-research/bert
https://github.com/rowanz/grover
Исследование поддержано облачными TPU от TensorFlow Research Cloud (TFRC) Google.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )