OSCHINA-MIRROR/iflytek-MacBERT

Этот репозиторий содержит ресурсы нашей статьи "Переосмысление пресетированных моделей для китайской естественной языковой обработки" (Revisiting Pre-trained Models for Chinese Natural Language Processing), которая будет опубликована в "Findings of EMNLP". Вы можете прочитать нашу окончательную версию статьи через ACL Anthology или предварительную версию arXiv.

Переосмысление пресетированных моделей для китайской естественной языковой обработки
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu

Для других ресурсов кроме MacBERT, пожалуйста, посетите следующие репозитории:

Серия китайского BERT-wwm: https://github.com/ymcui/Chinese-BERT-wwm
Китайский ELECTRA: https://github.com/ymcui/Chinese-ELECTRA
Китайский XLNet: https://github.com/ Yöntem: ymcui/Chinese-XLNet

Более ресурсов от HFL: https://github.com/ymcui/HFL-Anthology

Новости

[3 ноября 2020 года] Пресетированные модели MacBERT доступны для скачивания непосредственно с помощью Загрузки или Быстрого запуска. Используйте его так же, как и оригинальный BERT (кроме того, что он не может выполнять оригинальное MLM).[15 сентября 2020 года] Наша статья "Переосмысление пресетированных моделей для китайской естественной языковой обработки" принята к публикации в Findings of EMNLP в виде полной статьи.## Обзор

Раздел	Описание
Введение	Введение в MacBERT
Загрузка	Ссылки для загрузки MacBERT
Быстрый запуск	Узнайте, как быстро запустить наши модели через 🤗Transformers
Результаты	Результаты на нескольких китайских наборах данных по естественному языку обработке
Часто задаваемые вопросы	Часто задаваемые вопросы
Цитирование	Цитирование
MacBERT — это улучшенный BERT с новым Masked Language Modeling как задачей корректировки предобучения, которая снижает расхождение между предобучением и детализацией. Вместо маскировки с помощью токена [MASK], который никогда не появляется в этапе предобучения, мы предлагаем использовать похожие слова для цели маскировки. Похожее слово получается с использованием инструмента Synonyms (Wang и Hu, 2017), основанного на вычислениях сходства по методу word2vec (Mikolov et al., 2013). Если выбирается N-грамм для маскировки, мы будем находить похожие слова отдельно для каждого слова. В редких случаях, когда нет похожего слова, мы будем использовать случайную замену слов. Приведённый ниже пример нашей задачи предобучения.
	Пример
--------------	-----------------
Оригинальное предложение	мы используем модель языка для прогнозирования вероятности следующего слова.
MLM	мы используем модель языка [M] для [M] ##ди ##кта веро ##ятности следующего слова.
Маскирование целых слов	мы используем модель языка [M] для [M] [M] [M] [M] [M] следующего слова.
Маскирование n-грамм	мы используем [M] [M] для [M] [M] [M] [M] [M] [M] следующего слова.
MLM как исправление	мы используем систему текста для вычисления веро ##ятности следующего слова.

Маскирование целых слов (WWM)
Маскирование n-грамм
Предсказание порядка предложения (SOP)

Обратите внимание, что наш MacBERT может быть непосредственно заменён оригинальным BERT, так как нет различий в основной нейронной архитектуре.

Для более подробной технической информации обратитесь к нашей статье: Переоценка предобученных моделей для китайской естественной языковой обработки

Скачать

Основные предобученные модели MacBERT доступны в TensorFlow 1.x.

MacBERT-large, Китайский: 24 слоя, 1024 скрытых, 16 голов, 324M параметров
MacBERT-base, Китайский: 12 слоёв, 768 скрытых, 12 голов, 102M параметров

Модель	Google Drive	iFLYTEK Cloud	Размер
`MacBERT-large, Китайский`	TensorFlow	TensorFlow（pw:3Yg3）	1.2 ГБ
`MacBERT-base, Китайский`	TensorFlow	TensorFlow（pw:E2cP）	383 М

Версия PyTorch/TensorFlow2

Если вам нужны эти модели в PyTorch/TensorFlow2,

Преобразуйте checkpoint TensorFlow в PyTorch/TensorFlow2 с помощью 🤗Transformers
Скачайте с https://huggingface.co/hflШаги: выберите одну из моделей на странице выше → нажмите "показать все файлы модели" в конце страницы модели → скачайте bin/json файлы из появившегося окна.

Быстрая загрузка

С помощью Huggingface-Transformers вы можете легко получить доступ к и загрузить указанные выше модели через следующие коды.

tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Примечание: Для загрузки моделей MacBERT используйте BertTokenizer и BertModel.

Действительные модели и их MODEL_NAME приведены ниже.

Оригинальная модель	MODEL_NAME
MacBERT-large	hfl/chinese-macbert-large
MacBERT-base	hfl/chinese-macbert-base

Результаты

Мы представляем результаты работы MacBERT на следующих шести задачах (для других результатов прочтите нашу статью).

Чтобы обеспечить стабильность результатов, мы выполняли каждое экспериментальное испытание 10 раз и отчитывались о максимальных и средних значениях (в скобках).### CMRC 2018 Датасет CMRC 2018 был выпущен совместной лабораторией НИИ ХЭТУ и iFLYTEK Research. Модели должны отвечать на вопросы на основе предоставленного текста, что аналогично SQuAD. Критерии оценки: EM / F1

Модель	Разработка	Тест	Вызов	Число параметров
BERT-base	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102М
BERT-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)	102М
BERT-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)	102М
RoBERTa-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)	102М
ELECTRA-base	68.4 (68.0) / 84.8 (84.6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21.7) / 45.0 (43.8)	102М
MacBERT-base	68.5 (67.3) / 87.9 (87.1)	73.2 (72.4) / 89.5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102М
ELECTRA-large	69.1 (68.2) / 85.2 (84.5)	73.9 (72.8) / 87.1 (86.6)	23.0 (21.6) / 44.2 (43.2)	324М
RoBERTa-wwm-ext-large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)	324М
MacBERT-large	70.7 (68.6) / 88.9 (88.2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60.2 (57.6)	324М

DRCD

DRCD также является набором данных для машинного чтения с выделением spans, выпущенным Дельта研究中心. Текст написан на традиционном китайском языке. Оценочные метрики: EM / F1| Модель | Разработка | Тест | #Параметров | | :------------------------ | :--------------: | :--------------: | :----------: | | BERT-base | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102М | | BERT-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102М | | BERT-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102М | | RoBERTa-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102М | | ELECTRA-base | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102М | | MacBERT-base | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102М | | ELECTRA-large | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324М | | RoBERTa-wwm-ext-large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324М | | MacBERT-large | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324М |

XNLI

Для тестирования задачи NLI мы используем данные XNLI. Оценочные метрики: Accuracy

Модель	Разработка	Тест	#Параметров
BERT-base	77.8 (77.4)	77.8 (77.5)	102М
BERT-wwm	79.0 (78.4)	78.2 (78.0)	102М
BERT-wwm-ext	79.4 (78.6)	78.7 (78.3)	102М
RoBERTa-wwm-ext	80.0 (79.2)	78.8 (78.3)	102М
ELECTRA-base	77.9 (77.0)	78.4 (77.8)	102М
MacBERT-base	80.3 (79.7)	79.3 (78.8)	102М
ELECTRA-large	81.5 (80.8)	81.0 (80.9)	324М
RoBERTa-wwm-ext-large	82.1 (81.3)	81.2 (80.6)	324М
MacBERT-large	82.4 (81.8)	81.3 (80.6)	324М
Для тестирования анализа тональности мы используем данные ChnSentiCorp. Оценочные метрики: Accuracy	Модель	Разработка	Тест
:------------------------	:---------:	:---------:	:-----:
BERT-base	94.7 (94.3)	95.0 (94.7)	102М
BERT-wwm	95.1 (94.5)	95.4 (95.0)	102М
BERT-wwm-ext	95.4 (94.6)	95.3 (94.7)	102М
RoBERTa-wwm-ext	95.0 (94.6)	95.6 (94.8)	102М
ELECTRA-base	93.8 (93.0)	94.5 (93.5)	102М
MacBERT-base	95.2 (94.8)	95.6 (94.9)	102М
ELECTRA-large	95.2 (94.6)	95.3 (94.8)	324М
RoBERTa-wwm-ext-large	95.8 (94.9)	95.8 (94.9)	324М
MacBERT-large	95.7 (95.0)	95.9 (95.1)	324М
LCQMC — это набор данных для сопоставления пар предложений, который можно рассматривать как задачу бинарной классификации. Оценочные метрики: точность.

Модель	Разработка	Тест	#Параметров
BERT	89.4 (88.4)	86.9 (86.4)	102М
BERT-wwm	89.4 (89.2)	87.0 (86.8)	102М
BERT-wwm-ext	89.6 (89.2)	87.1 (86.6)	102М
RoBERTa-wwm-ext	89.0 (88.7)	86.4 (86.1)	102М
ELECTRA-base	90.2 (89.8)	87.6 (87.3)	102М
MacBERT-base	89.5 (89.3)	87.0 (86.5)	102М
ELECTRA-large	90.7 (90.4)	87.3 (87.2)	324М
RoBERTa-wwm-ext-large	90.4 (90.0)	87.0 (86.8)	324М
MacBERT-large	90.6 (90.3)	87.6 (87.1)	324М

BQ Corpus

BQ Corpus — это набор данных для сопоставления пар предложений, который можно рассматривать как задачу бинарной классификации. Оценочные метрики: точность.| Модель | Разработка | Тест | #Параметров | | :------------------------ | :---------: | :-------: | :----------: | | BERT | 86.0 (85.5)| 84.8 (84.6)| 102М | | BERT-wwm | 86.1 (85.6)| 85.2 (84.9)| 102М | | BERT-wwm-ext | 86.4 (85.5)| 85.3 (84.8)| 102М | | RoBERTa-wwm-ext | 86.0 (85.4)| 85.0 (84.6)| 102М | | ELECTRA-base | 84.8 (84.7)| 84.5 (84.0)| 102М | | MacBERT-base | 86.0 (85.5)| 85.2 (84.9)| 102М | | ELECTRA-large | 86.7 (86.2)| 85.1 (84.8)| 324М | | RoBERTa-wwm-ext-large | 86.3 (85.7)| 85.8 (84.9)| 324М | | MacBERT-large | 86.2 (85.7)| 85.6 (85.0)| 324М |

Часто задаваемые вопросы (FAQ)

**Вопрос 1: Есть ли английская версия MacBERT?**A1: К сожалению, мы не предоставляем английскую версию предобученного MacBERT.

Вопрос 2: Как использовать MacBERT?

A2: Используйте его так же, как вы бы использовали оригинальный BERT на этапе мелкотонкой настройки (просто замените файлы конфигурации и точки сохранения). Также можно выполнить дальнейшее предобучение на наших точках сохранения с целями MLM/NSP/SOP.

Вопрос 3: Вы можете предоставить код для предобучения MacBERT?

A3: К сожалению, мы не можем предоставить исходный код в данный момент, возможно, мы выпустим его в будущем, но это не гарантируется.

Вопрос 4: Будете ли вы выпускать данные для предобучения?

A4: У нас нет прав на перераспределение этих данных, что может привести к потенциальным юридическим нарушениям.

Вопрос 5: Будете ли вы выпускать предобученный MacBERT на больших данных?

A5: В настоящее время у нас нет планов на это.## Цитирование Если наш ресурс или статья вам полезна, пожалуйста, рассмотрите возможность включения следующего цитирования в вашу работу.

https://arxiv.org/abs/2004.13922

@inproceedings{cui-etal-2020-revisiting,
    title = "Переоценка предобученных моделей для обработки естественного языка на китайском",
    author = "Cui, Yiming  and
              Che, Wanxiang  and
              Liu, Ting  and
              Qin, Bing  and
              Wang, Shijin  and
              Hu, Guoping",
    booktitle = "Доклады на конференции Empirical Methods in Natural Language Processing 2020: Найденные решения",
    month = nov,
    year = "2020",
    address = "Онлайн",
    publisher = "Ассоциация по вычислительной лингвистике",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}
```## Благодарность
Первый автор хотел бы поблагодарить программу Google TensorFlow Research Cloud (TFRC).

## Проблемы
Прежде чем отправить проблему:

- **Вы рекомендованы прочитать [Часто задаваемые вопросы (FAQ)](#FAQ) перед тем, как отправить проблему.**
- Повторяющиеся и нерелевантные проблемы будут проигнорированы и закрыты ботом [stable-bot](stale · GitHub Marketplace). Спасибо за понимание и поддержку.
- Мы не можем удовлетворить каждую заявку, поэтому помните, что нет гарантии, что ваш запрос будет выполнен.
- Всегда будьте вежливы при отправке проблемы.