1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors_alibaba-AliceMind

Клонировать/Скачать
README.md 22 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 26.11.2024 00:04 11eac24

AliceMind: коллекция моделей кодировщиков-декодировщиков от лаборатории машинного интеллекта Damo компании Alibaba

В этом репозитории представлены предварительно обученные модели кодировщик-декодер и связанные с ними методы оптимизации, разработанные в лаборатории машинного интеллекта Damo (MinD) компании Alibaba.

Семейство AliceMind включает:

  • Предварительно обученные модели:
    • Первая мультимодальная большая языковая модель для улучшения LLM и MLLM за счёт взаимодействия модальностей: mPLUG-Owl2 (CVPR 2024).
    • Первая мультимодальная большая языковая модель без оптического распознавания символов для универсального понимания документов: mPLUG-DocOwl (EMNLP 2023).
    • Первый и самый большой общедоступный набор данных для предварительного обучения на китайском языке и видео, а также основанные на нём эталонные показатели: Youku-mPLUG и китайская видеоязыковая большая языковая модель mPLUG-video (https://github.com/X-PLUG/Youku-mPLUG).
    • Новая парадигма обучения с модульным дизайном для больших мультимодальных языковых моделей: mPLUG-Owl.
    • Крупномасштабная китайская диалоговая система открытого домена для цифрового человека: ChatPLUG.
    • Модульная мультимодальная базовая модель для текста, изображения и видео: mPLUG-2 (ICML 2023).
    • Модель для крупномасштабного понимания и генерации изображений и языка: mPLUG (EMNLP 2022).
    • Китайская модель для понимания и генерации языка: PLUG.
    • Модель таблицы для предварительного обучения: SDCUP (Under Review).
    • Понимание языка с использованием многомасштабных входных данных: LatticeBERT (NAACL 2021).
    • Структурная языковая модель: StructuralLM (ACL 2021).
    • Кросс-модальная языковая модель: StructVBERT (CVPR 2020 VQA Challenge Runner-up).
    • Кросс-лингвальная языковая модель: VECO (ACL 2021).
    • Генеративная языковая модель: PALM (EMNLP 2020).
    • Языковая модель понимания: StructBERT (ICLR 2020).
  • Методы точной настройки:
    • Эффективные и обобщаемые методы точной настройки ChildTuning (EMNLP 2021).
    • Методы повышения эффективности параметров PST (IJCAI 2022).
  • Сжатие модели:
    • Контрастивное сокращение как метод сжатия языковой модели ContrastivePruning (AAAI 2022).

Новости

  • 9 ноября 2023 года: mPLUG-Owl2, первая мультимодальная большая языковая модель для усиления LLM и MLLM через взаимодействие модальностей, была принята на CVPR 2024.

  • 7 июля 2023 года: mPLUG-DocOwl, первая мультимодальная большая языковая модель без оптического распознавания символов для универсального понимания документов, была принята на EMNLP 2023.

  • 8 июня 2023 года: выпущен первый и самый крупный общедоступный китайский набор данных для предварительного обучения видео и языку Youku-mPLUG, а также основанная на нём китайская видеоязыковая большая языковая модель mPLUG-video.

  • 27 апреля 2023 года: выпущена новая парадигма обучения mPLUG-Owl с модульной архитектурой для больших мультимодальных языковых моделей.

  • 25 апреля 2023 года: модель mPLUG-2 была принята на ICML 2023. Система для цифровых приложений с искусственным интеллектом выпущена.

  • Октябрь 2022: mPLUG были приняты на EMNLP 2022.

  • Май 2022: PST были приняты на IJCAI 2022.

  • Апрель 2022: Выпущен инструментарий моделирования SOFA, который поддерживает стандартные коды моделей и технологий и прямое использование их в трансформерах!

  • Декабрь 2021: ContrastivePruning были приняты на AAAI 2022.

  • Октябрь 2021: ChildTuning были приняты на EMNLP 2021.

  • Сентябрь 2021: Выпущена первая китайская модель предварительной подготовки таблиц SDCUP!

  • Май 2021: VECO и StructuralLM были приняты на ACL 2021.

  • Март 2021: AliceMind выпущен!

Предварительно обученные модели

  • mPLUG-Owl (27 апреля 2023): новая парадигма обучения с модульным дизайном для больших мультимодальных языковых моделей. Изучает визуальные знания, поддерживая многооборотные разговоры, состоящие из разных модальностей. Наблюдаемые способности, такие как корреляция между несколькими изображениями и понимание текста сцены, понимание документов на основе зрения. Выпущен набор для оценки инструкций OwlEval, связанных с визуальными данными. mPLUG-Owl: Модульность расширяет возможности больших языковых моделей с помощью мультимодальности.

  • ChatPLUG (16 апреля 2023 г.): китайская система открытого диалога для цифровых человеческих приложений, которая инструктирует по тонкой настройке широкого спектра задач диалога в унифицированном формате, дополненном интернетом. В отличие от других моделей открытого диалога, которые фокусируются на крупномасштабной предварительной подготовке и масштабировании размера модели или корпуса диалогов, мы стремимся создать мощную и практичную систему диалога для цифрового человека с разнообразными навыками и хорошей многозадачной генерализацией путём настройки инструкций, дополненных интернетом. ChatPLUG: Система открытого диалога с генерацией на основе интернет-дополненной настройки инструкций для цифрового человека.

  • mPLUG (сентябрь 1, 2022): крупномасштабная предварительно обученная модель для понимания и генерации языка изображений. mPLUG предварительно обучается сквозным образом на большом количестве пар изображений и текстов с дискриминативными и генеративными целями. Она достигает результатов на уровне современных технологий по широкому спектру задач понимания и создания изображений, включая аннотирование изображений, поиск изображений по тексту, визуальное обоснование и ответы на вопросы по изображениям. mPLUG: Эффективное мультимодальное обучение с помощью кросс-модальных пропусков соединений (EMNLP 2022).

  • PLUG (сентябрь 1, 2022): китайская крупномасштабная предварительно обученная модель для понимания и генерации. PLUG (27B) — это крупномасштабная китайская модель предварительного обучения для понимания языка и генерации. Обучение PLUG проходит в два этапа: первый этап представляет собой 24-слойный кодировщик StructBERT, а второй этап — 24–6-слойный энкодер-декодер PALM.

  • SDCUP (6 сентября 2021 г.): предварительно обученные модели для понимания таблиц. Мы разрабатываем цель предварительного обучения зависимости схемы, чтобы наложить желаемый индуктивный уклон на полученные представления для предварительного обучения таблиц. Далее мы предлагаем подход к обучению на основе учебной программы, учитывающий схему, чтобы уменьшить влияние шума и эффективно учиться на данных предварительного обучения в порядке от простого к сложному. Результаты экспериментов на SQUALL и Spider демонстрируют эффективность нашей цели предварительного обучения и учебной программы по сравнению с различными базовыми показателями. «SDCUP: Предварительное обучение на основе зависимости схем для семантического анализа таблиц» (на рассмотрении).

  • LatticeBERT (15 марта 2021): мы предлагаем новую парадигму предварительного обучения для китайского языка — Lattice-BERT, которая явно включает представления слов вместе с представлениями символов, таким образом, может моделировать... Структурный LM (StructuralLM) (15 марта 2021 г.): предварительно обученные модели для понимания документов и изображений. Мы предлагаем новый подход к предварительному обучению StructuralLM, чтобы совместно использовать информацию о ячейках и макете из отсканированных документов. Предварительно обученный StructuralLM достигает новых результатов в различных типах последующих задач. «StructuralLM: структурное предварительное обучение для понимания форм» (NAACL 2021).

Структурный VBERT (StructVBERT) (15 марта 2021 г.): предварительно обученные модели для визуально-языкового понимания. Мы предлагаем новую схему однопоточного визуально-лингвистического предварительного обучения, используя многоэтапное прогрессивное предварительное обучение и многозадачное обучение. StructVBERT получил награду VQA Challenge Runner-up 2020 и лучший результат на общедоступном тестовом стандарте VQA 2020 (июнь 2020 г.). «Слайд-презентация» (CVPR 2020 VQA Challenge Runner-up).

VECO v0 (VECO) (15 марта 2021 г.): Предварительно обученные модели для межъязыкового (x) понимания естественного языка (x-NLU) и генерации (x-NLG). VECO (v0) достигает новых лучших результатов в различных задачах межъязыкового понимания XTREME, охватывающих классификацию текста, маркировку последовательностей, ответы на вопросы и поиск предложений. Для задач межъязыковой генерации он также превосходит все существующие межъязыковые модели и современные варианты Transformer на наборах данных перевода WMT14 с английского на немецкий и с английского на французский языки, с приростом до 1–2 BLEU. «VECO: предварительное обучение с переменным кодированием-декодированием для межъязыкового понимания и генерации» (ACL 2021).

PALM (PALM) (15 марта 2021 г.): предварительно обученные модели для генерации естественного языка (NLG). Мы предлагаем новую схему, которая совместно предварительно обучает модель автокодирования и авторегрессивную языковую модель на большом немаркированном корпусе, специально разработанном для создания нового текста в зависимости от контекста. Он достигает новых лучших результатов по нескольким последующим задачам. «PALM: Предварительное обучение модели автокодирования и авторегрессии для контекстно-зависимой генерации» (EMNLP 2020).

StructBERT (StructBERT) (15 марта 2021 г.): предварительно обученные модели для понимания естественного языка (NLU). Мы расширяем BERT до новой модели, StructBERT, путём включения языковых структур в предварительное обучение. В частности, мы предварительно обучаем StructBERT двум вспомогательным задачам, чтобы максимально использовать последовательный порядок слов и предложений, которые используют языковые структуры на уровне слов и предложений соответственно. «StructBERT: включение языковых структур в предварительное обучение для глубокого понимания языка» (ICLR 2020).

Методы точной настройки

ChildTuning (ChildTuning) (25 октября 2021 г.): Чтобы смягчить проблему переобучения и улучшить обобщение для точной настройки крупномасштабных PLM, мы предлагаем простой, но эффективный метод точной настройки, ChildTuning, который обновляет только дочернюю сеть во время точной настройки путём стратегического маскирования градиентов недетской сети. «Воспитать ребёнка в большой языковой модели: к эффективной и обобщаемой точной настройке» (EMNLP 2021).

Сжатие модели

Контрастивное сокращение (ContrastivePruning) (17 декабря 2021 г.): ContrAstive Pruning (CAP) — это общая структура сокращения в парадигме предварительного обучения и точной настройки, целью которой является сохранение как специфичных для задачи, так и общих знаний во время сокращения. CAP разработан как общая структура, совместимая как со структурированным, так и с неструктурированным сокращением. Унифицированный в контрастном обучении, CAP побуждает сокращённую модель учиться у предварительно обученной модели, моментальных снимков (промежуточных моделей во время сокращения) и точно настроенной модели соответственно. «От плотного к разреженному: Контрастивное сокращение для улучшения сжатия предварительно обученных языковых моделей

(https://arxiv.org/abs/2112.07198) (AAAI 2022)

PST (S4/PST), 23 мая 2022 года:

Эффективное по параметрам разреженное обучение (PST) направлено на уменьшение количества обучаемых параметров во время разреженного обучения в последующих задачах. Оно объединяет критерии, основанные на данных и не основанные на них, чтобы эффективно и точно измерять важность весов и исследует внутреннюю избыточность важности весов, основанной на данных, и выводит две очевидные характеристики: низкую ранговость и структурированность. Это делает разрежённое обучение ресурсоэффективным и эффективным по параметрам.

«Эффективная по параметрам разреженность для точной настройки больших языковых моделей»

(https://arxiv.org/abs/2205.11005) (IJCAI 2022).

Инструментарий моделирования

SOFA направлен на то, чтобы облегчить использование и распространение предварительно обученных языковых моделей из проекта AliceMind Alibaba DAMO Academy. Кроме того, подробные примеры в проекте позволяют любому конечному пользователю получить доступ к этим моделям.

Контактная информация

Официальный сайт AliceMind: https://nlp.aliyun.com/portal#/alice. Открытая платформа AliceMind: https://alicemind.aliyuncs.com/#/home.

Если вам нужна помощь или у вас возникли проблемы с использованием ALICE, отправьте запрос на GitHub.

Для получения дополнительной информации вы можете присоединиться к группе пользователей AliceMind на DingTalk, чтобы связаться с нами. Номер группы DingTalk — 35738533.

По другим деловым вопросам обращайтесь по адресу nlp-support@list.alibaba-inc.com.

Лицензия

AliceMind выпущена под лицензией Apache 2.0 (LICENSE).

Авторские права 1999–2020 принадлежат Alibaba Group Holding Ltd.

Лицензия предоставляется в соответствии с условиями лицензии Apache, версия 2.0 («Лицензия»); вы не можете использовать этот файл иначе, чем в соответствии с Лицензией. Вы можете получить копию Лицензии по следующей ссылке:

http://www.apache.org/licenses/LICENSE-2.0.

Программное обеспечение, распространяемое в соответствии с настоящей Лицензией, предоставляется «КАК ЕСТЬ», без каких-либо гарантий или условий любого рода, явных или подразумеваемых. См. Лицензию для конкретного языка, регулирующего разрешения и ограничения в рамках Лицензии.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mirrors_alibaba-AliceMind.git
git@api.gitlife.ru:oschina-mirror/mirrors_alibaba-AliceMind.git
oschina-mirror
mirrors_alibaba-AliceMind
mirrors_alibaba-AliceMind
main