1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/iflytek-MacBERT

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md



GitHub

Этот репозиторий содержит ресурсы нашей статьи "Переосмысление пресетированных моделей для китайской естественной языковой обработки" (Revisiting Pre-trained Models for Chinese Natural Language Processing), которая будет опубликована в "Findings of EMNLP". Вы можете прочитать нашу окончательную версию статьи через ACL Anthology или предварительную версию arXiv.

Переосмысление пресетированных моделей для китайской естественной языковой обработки
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu

Для других ресурсов кроме MacBERT, пожалуйста, посетите следующие репозитории:

Более ресурсов от HFL: https://github.com/ymcui/HFL-Anthology

Новости

[3 ноября 2020 года] Пресетированные модели MacBERT доступны для скачивания непосредственно с помощью Загрузки или Быстрого запуска. Используйте его так же, как и оригинальный BERT (кроме того, что он не может выполнять оригинальное MLM).[15 сентября 2020 года] Наша статья "Переосмысление пресетированных моделей для китайской естественной языковой обработки" принята к публикации в Findings of EMNLP в виде полной статьи.## Обзор

Раздел Описание
Введение Введение в MacBERT
Загрузка Ссылки для загрузки MacBERT
Быстрый запуск Узнайте, как быстро запустить наши модели через 🤗Transformers
Результаты Результаты на нескольких китайских наборах данных по естественному языку обработке
Часто задаваемые вопросы Часто задаваемые вопросы
Цитирование Цитирование
MacBERT — это улучшенный BERT с новым Masked Language Modeling как задачей корректировки предобучения, которая снижает расхождение между предобучением и детализацией. Вместо маскировки с помощью токена [MASK], который никогда не появляется в этапе предобучения, мы предлагаем использовать похожие слова для цели маскировки. Похожее слово получается с использованием инструмента Synonyms (Wang и Hu, 2017), основанного на вычислениях сходства по методу word2vec (Mikolov et al., 2013). Если выбирается N-грамм для маскировки, мы будем находить похожие слова отдельно для каждого слова. В редких случаях, когда нет похожего слова, мы будем использовать случайную замену слов. Приведённый ниже пример нашей задачи предобучения.
Пример
-------------- -----------------
Оригинальное предложение мы используем модель языка для прогнозирования вероятности следующего слова.
MLM мы используем модель языка [M] для [M] ##ди ##кта веро ##ятности следующего слова.
Маскирование целых слов мы используем модель языка [M] для [M] [M] [M] [M] [M] следующего слова.
Маскирование n-грамм мы используем [M] [M] для [M] [M] [M] [M] [M] [M] следующего слова.
MLM как исправление мы используем систему текста для вычисления веро ##ятности следующего слова.
  • Маскирование целых слов (WWM)
  • Маскирование n-грамм
  • Предсказание порядка предложения (SOP)

Обратите внимание, что наш MacBERT может быть непосредственно заменён оригинальным BERT, так как нет различий в основной нейронной архитектуре.

Для более подробной технической информации обратитесь к нашей статье: Переоценка предобученных моделей для китайской естественной языковой обработки

Скачать

Основные предобученные модели MacBERT доступны в TensorFlow 1.x.

  • MacBERT-large, Китайский: 24 слоя, 1024 скрытых, 16 голов, 324M параметров
  • MacBERT-base, Китайский: 12 слоёв, 768 скрытых, 12 голов, 102M параметров
Модель Google Drive iFLYTEK Cloud Размер
MacBERT-large, Китайский TensorFlow TensorFlow(pw:3Yg3) 1.2 ГБ
MacBERT-base, Китайский TensorFlow TensorFlow(pw:E2cP) 383 М

Версия PyTorch/TensorFlow2

Если вам нужны эти модели в PyTorch/TensorFlow2,

  1. Преобразуйте checkpoint TensorFlow в PyTorch/TensorFlow2 с помощью 🤗Transformers
  2. Скачайте с https://huggingface.co/hflШаги: выберите одну из моделей на странице выше → нажмите "показать все файлы модели" в конце страницы модели → скачайте bin/json файлы из появившегося окна.

Быстрая загрузка

С помощью Huggingface-Transformers вы можете легко получить доступ к и загрузить указанные выше модели через следующие коды.

tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Примечание: Для загрузки моделей MacBERT используйте BertTokenizer и BertModel.

Действительные модели и их MODEL_NAME приведены ниже.

Оригинальная модель MODEL_NAME
MacBERT-large hfl/chinese-macbert-large
MacBERT-base hfl/chinese-macbert-base

Результаты

Мы представляем результаты работы MacBERT на следующих шести задачах (для других результатов прочтите нашу статью).

Чтобы обеспечить стабильность результатов, мы выполняли каждое экспериментальное испытание 10 раз и отчитывались о максимальных и средних значениях (в скобках).### CMRC 2018 Датасет CMRC 2018 был выпущен совместной лабораторией НИИ ХЭТУ и iFLYTEK Research. Модели должны отвечать на вопросы на основе предоставленного текста, что аналогично SQuAD. Критерии оценки: EM / F1

Модель Разработка Тест Вызов Число параметров
BERT-base 65.5 (64.4) / 84.5 (84.0) 70.0 (68.7) / 87.0 (86.3) 18.6 (17.0) / 43.3 (41.3) 102М
BERT-wwm 66.3 (65.0) / 85.6 (84.7) 70.5 (69.1) / 87.4 (86.7) 21.0 (19.3) / 47.0 (43.9) 102М
BERT-wwm-ext 67.1 (65.6) / 85.7 (85.0) 71.4 (70.0) / 87.7 (87.0) 24.0 (20.0) / 47.3 (44.6) 102М
RoBERTa-wwm-ext 67.4 (66.5) / 87.2 (86.5) 72.6 (71.4) / 89.4 (88.8) 26.2 (24.6) / 51.0 (49.1) 102М
ELECTRA-base 68.4 (68.0) / 84.8 (84.6) 73.1 (72.7) / 87.1 (86.9) 22.6 (21.7) / 45.0 (43.8) 102М
MacBERT-base 68.5 (67.3) / 87.9 (87.1) 73.2 (72.4) / 89.5 (89.2) 30.2 (26.4) / 54.0 (52.2) 102М
ELECTRA-large 69.1 (68.2) / 85.2 (84.5) 73.9 (72.8) / 87.1 (86.6) 23.0 (21.6) / 44.2 (43.2) 324М
RoBERTa-wwm-ext-large 68.5 (67.6) / 88.4 (87.9) 74.2 (72.4) / 90.6 (90.0) 31.5 (30.1) / 60.1 (57.5) 324М
MacBERT-large 70.7 (68.6) / 88.9 (88.2) 74.8 (73.2) / 90.7 (90.1) 31.9 (29.6) / 60.2 (57.6) 324М

DRCD

DRCD также является набором данных для машинного чтения с выделением spans, выпущенным Дельта研究中心. Текст написан на традиционном китайском языке. Оценочные метрики: EM / F1| Модель | Разработка | Тест | #Параметров | | :------------------------ | :--------------: | :--------------: | :----------: | | BERT-base | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102М | | BERT-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102М | | BERT-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102М | | RoBERTa-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102М | | ELECTRA-base | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102М | | MacBERT-base | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102М | | ELECTRA-large | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324М | | RoBERTa-wwm-ext-large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324М | | MacBERT-large | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324М |

XNLI

Для тестирования задачи NLI мы используем данные XNLI. Оценочные метрики: Accuracy

Модель Разработка Тест #Параметров
BERT-base 77.8 (77.4) 77.8 (77.5) 102М
BERT-wwm 79.0 (78.4) 78.2 (78.0) 102М
BERT-wwm-ext 79.4 (78.6) 78.7 (78.3) 102М
RoBERTa-wwm-ext 80.0 (79.2) 78.8 (78.3) 102М
ELECTRA-base 77.9 (77.0) 78.4 (77.8) 102М
MacBERT-base 80.3 (79.7) 79.3 (78.8) 102М
ELECTRA-large 81.5 (80.8) 81.0 (80.9) 324М
RoBERTa-wwm-ext-large 82.1 (81.3) 81.2 (80.6) 324М
MacBERT-large 82.4 (81.8) 81.3 (80.6) 324М
Для тестирования анализа тональности мы используем данные ChnSentiCorp. Оценочные метрики: Accuracy Модель Разработка Тест
:------------------------ :---------: :---------: :-----:
BERT-base 94.7 (94.3) 95.0 (94.7) 102М
BERT-wwm 95.1 (94.5) 95.4 (95.0) 102М
BERT-wwm-ext 95.4 (94.6) 95.3 (94.7) 102М
RoBERTa-wwm-ext 95.0 (94.6) 95.6 (94.8) 102М
ELECTRA-base 93.8 (93.0) 94.5 (93.5) 102М
MacBERT-base 95.2 (94.8) 95.6 (94.9) 102М
ELECTRA-large 95.2 (94.6) 95.3 (94.8) 324М
RoBERTa-wwm-ext-large 95.8 (94.9) 95.8 (94.9) 324М
MacBERT-large 95.7 (95.0) 95.9 (95.1) 324М
LCQMC — это набор данных для сопоставления пар предложений, который можно рассматривать как задачу бинарной классификации. Оценочные метрики: точность.
Модель Разработка Тест #Параметров
BERT 89.4 (88.4) 86.9 (86.4) 102М
BERT-wwm 89.4 (89.2) 87.0 (86.8) 102М
BERT-wwm-ext 89.6 (89.2) 87.1 (86.6) 102М
RoBERTa-wwm-ext 89.0 (88.7) 86.4 (86.1) 102М
ELECTRA-base 90.2 (89.8) 87.6 (87.3) 102М
MacBERT-base 89.5 (89.3) 87.0 (86.5) 102М
ELECTRA-large 90.7 (90.4) 87.3 (87.2) 324М
RoBERTa-wwm-ext-large 90.4 (90.0) 87.0 (86.8) 324М
MacBERT-large 90.6 (90.3) 87.6 (87.1) 324М

BQ Corpus

BQ Corpus — это набор данных для сопоставления пар предложений, который можно рассматривать как задачу бинарной классификации. Оценочные метрики: точность.| Модель | Разработка | Тест | #Параметров | | :------------------------ | :---------: | :-------: | :----------: | | BERT | 86.0 (85.5)| 84.8 (84.6)| 102М | | BERT-wwm | 86.1 (85.6)| 85.2 (84.9)| 102М | | BERT-wwm-ext | 86.4 (85.5)| 85.3 (84.8)| 102М | | RoBERTa-wwm-ext | 86.0 (85.4)| 85.0 (84.6)| 102М | | ELECTRA-base | 84.8 (84.7)| 84.5 (84.0)| 102М | | MacBERT-base | 86.0 (85.5)| 85.2 (84.9)| 102М | | ELECTRA-large | 86.7 (86.2)| 85.1 (84.8)| 324М | | RoBERTa-wwm-ext-large | 86.3 (85.7)| 85.8 (84.9)| 324М | | MacBERT-large | 86.2 (85.7)| 85.6 (85.0)| 324М |

Часто задаваемые вопросы (FAQ)

**Вопрос 1: Есть ли английская версия MacBERT?**A1: К сожалению, мы не предоставляем английскую версию предобученного MacBERT.

Вопрос 2: Как использовать MacBERT?

A2: Используйте его так же, как вы бы использовали оригинальный BERT на этапе мелкотонкой настройки (просто замените файлы конфигурации и точки сохранения). Также можно выполнить дальнейшее предобучение на наших точках сохранения с целями MLM/NSP/SOP.

Вопрос 3: Вы можете предоставить код для предобучения MacBERT?

A3: К сожалению, мы не можем предоставить исходный код в данный момент, возможно, мы выпустим его в будущем, но это не гарантируется.

Вопрос 4: Будете ли вы выпускать данные для предобучения?

A4: У нас нет прав на перераспределение этих данных, что может привести к потенциальным юридическим нарушениям.

Вопрос 5: Будете ли вы выпускать предобученный MacBERT на больших данных?

A5: В настоящее время у нас нет планов на это.## Цитирование Если наш ресурс или статья вам полезна, пожалуйста, рассмотрите возможность включения следующего цитирования в вашу работу.

@inproceedings{cui-etal-2020-revisiting,
    title = "Переоценка предобученных моделей для обработки естественного языка на китайском",
    author = "Cui, Yiming  and
              Che, Wanxiang  and
              Liu, Ting  and
              Qin, Bing  and
              Wang, Shijin  and
              Hu, Guoping",
    booktitle = "Доклады на конференции Empirical Methods in Natural Language Processing 2020: Найденные решения",
    month = nov,
    year = "2020",
    address = "Онлайн",
    publisher = "Ассоциация по вычислительной лингвистике",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}
```## Благодарность
Первый автор хотел бы поблагодарить программу Google TensorFlow Research Cloud (TFRC).

## Проблемы
Прежде чем отправить проблему:

- **Вы рекомендованы прочитать [Часто задаваемые вопросы (FAQ)](#FAQ) перед тем, как отправить проблему.**
- Повторяющиеся и нерелевантные проблемы будут проигнорированы и закрыты ботом [stable-bot](stale · GitHub Marketplace). Спасибо за понимание и поддержку.
- Мы не можем удовлетворить каждую заявку, поэтому помните, что нет гарантии, что ваш запрос будет выполнен.
- Всегда будьте вежливы при отправке проблемы.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/iflytek-MacBERT.git
git@api.gitlife.ru:oschina-mirror/iflytek-MacBERT.git
oschina-mirror
iflytek-MacBERT
iflytek-MacBERT
master