README.md · OSCHINA-MIRROR/mirrors-belle

BELLE: Будь Ядром Великой Модели Языка для Всех

Читать на русском.

Цель этого проекта — развитие открытого сообщества по созданию диалоговых моделей для языка. Визия проекта — стать ядром модели, которая поможет каждому человеку.В отличие от того, как лучше всего предварительно обучать большие языковые модели, BELLE больше заботится о том, как помочь каждому человеку получить свою собственную, максимально эффективную модель с инструкциями, используя открытые предварительно обученные большие языковые модели. Это снижает порог для исследования и применения больших языковых моделей, особенно для китайского языка. Для этого проект BELLE будет постоянно открывать данные для обучения инструкциям, связанные модели, код для обучения, сценарии применения и т. д., а также будет постоянно оценивать влияние различных данных для обучения, алгоритмов обучения и т. д. на производительность модели. Модель BELLE была оптимизирована для китайского языка, и оптимизация модели проводилась только на данных, произведенных ChatGPT (без использования каких-либо других данных).## 🔄 Последние обновления

[2024/10/16] Открытый доступ к Belle-whisper-larger-v3-turbo-zh — улучшенной модели распознавания речи с усилением китайского языка. Точность распознавания увеличена на 24-64% по сравнению с моделью whisper-large-v3-turbo, а скорость распознавания увеличена в 7-8 раз по сравнению с моделью whisper-large-v3.
[2024/03/15] Обновлен технический отчет Dial-insight. Использование высококачественных данных в отраслевых сценариях позволяет усилить способности модели в отраслевых задачах и эффективно противостоять ухудшению общей способности модели.
[2024/03/11] Открытый доступ к Belle-whisper-larger-v3-zh — улучшенной модели распознавания речи с усилением китайского языка. Точность распознавания увеличена на 24-65% по сравнению с моделью whisper-large-v3, особенно в сложных условиях с шумом и резонансом.
[2024/01/16] Обновлен технический отчет RAISE. RAISE показал, что использование небольшого количества примеров данных может эффективно активировать крупные модели, делая диалог более управляемым.
[2023/12/29] Открытый доступ к Belle-whisper-larger-v2-zh и Belle-distilwhisper-large-v2-zh — улучшенным моделям распознавания речи с усилением китайского языка, что делает их удобными для использования в сценариях с речью. * [2023/11/24] Открытый доступ к BELLE-VL — многомодальная крупная языковая модель, основанная на улучшенной языковой модели с усилением китайского языка. Расширение визуальных способностей модели позволяет сообществу использовать более гибкие варианты (самая новая версия BELLE-VL набрала 1620.10 баллов в оценке восприятия, превзойдя Qwen-VL, Llava и mplug-owl).
[2023/10/27] Обновлен технический отчет DUMA — исследование методов реализации агента на основе архитектуры быстрого и медленного мозга в диалоговых сценариях.
[2023/09/26] Обновлен код для обучения RLHF, поддерживающий PPO и DPO. Подробности см. в README_RLHF.md.
[2023/08/16] Добавлены новые поля категорий команд для существующего набора данных train_3.5M_CN, включая 13 категорий. Подробности см. в train_3.5M_CN_With_Category.
[2023/08/10] Обновлен код для вывода на основе ZeRO Inference. Подробности см. в train/README_ZERO_INFERENCE.md.
[2023/08/07] Обновлены коды для продолжительного предобучения и инструктивного тонкого настройки, добавлен flash attention 2, подробнее см. train/README.md. Вместе с этим упакованы среды выполнения, подробнее см. train/docker/README.md.
[2023/07/31] Обновлен технический отчет ChatHome.15290), исследована стратегия метода для инкрементного предобучения и инструктивного тонкого настройки для вертикальных областей.
[2023/07/27] Открыт BELLE-Llama2-13B-chat-0.4M, обучен на основе Llama-2-13B с использованием 400 000 высококачественных данных диалогов. Эффективность на тестовом наборе значительно превышает модель BELLE-LLaMA-EXT-13B.
[2023/05/14] Открыт BELLE-LLaMA-EXT-13B, расширенный на основе LLaMA-13B с добавлением китайского словаря и обучен на 4 000 000 высококачественных данных диалогов.
[2023/05/11] В BELLE/data/10M добавлены 3 500 000 данных для генерации разнообразных инструкций, включая одно- и многокруговые диалоги train_3.5M_CN.
[2023/04/19] Открыт один из моделей из одной из статей, включая модель, расширенную на основе LLaMA-7B с добавлением китайского словаря (см. BelleGroup/BELLE-LLaMA-EXT-7B), и модель LLaMA-7B, обученную на разнообразных открытых данных (см. BelleGroup/BELLE-on-Open-Datasets).
[2023/04/18] Обновлены коды для обучения, см. BELLE/train, интегрирован Deepspeed-Chat, предоставлены соответствующие docker.* [2023/04/18] Обновлены две последние работы, сравниваются различные способы генерации данных обучения, различные методы обучения (LoRA, fine-tuning) и их влияние на результат.
[2023/04/12] Выпущен ChatBELLE App, реализованный на основе llama.cpp и Flutter, обеспечивающий кросс-платформенную работу с офлайн-моделью BELLE-7B.
[2023/04/11] Обновлены ручные проверенные данные для оценки, около 1000 записей.
[2023/04/08] В BELLE/data/10M добавлены 400 000 данных для генерации многокруговых диалогов для заданных ролей Generated Chat, добавлены 2 000 000 данных для генерации разнообразных инструкций train_2M_CN.Ниже представлено видео, демонстрирующее возможность запуска локально на устройстве 4-битного квантованного модели BELLE-7B с помощью приложения (без ускорения) на процессоре M1 Max CPU в реальном времени. Подробная информация о скачивании приложения доступна по ссылке App配套模型下载及使用说明, скачать приложение. В настоящее время доступна только версия для macOS. Модель должна быть отдельно загружена. После квантования модель теряет качество, и мы продолжаем изучать способы его улучшения.

📝 Основные элементы проекта

🚀 Код для обучения

Подробная информация доступна по ссылке BELLE/train. Это упрощённая реализация кода для обучения, которая включает Deepspeed-Chat и поддерживает fine-tuning, LoRA, а также предоставляет связанные docker-образы.

📊 Открытые данные

Подробная информация доступна по ссылке BELLE/data/1.5M. Это набор данных на китайском языке, созданный по аналогии с Stanford Alpaca и включающий 1M и 0.5M данных.
Непрерывно обновляемый набор данных, подробная информация доступна по ссылке BELLE/data/10M.

🧐 Наборы для проверки и методы проверкиПодробная информация доступна по ссылке BELLE/eval. Это набор тестовых данных, включающий более 1000 примеров, и соответствующие им prompts для оценки. Включает несколько категорий и использует GPT-4 или ChatGPT для оценки. Также предоставляется веб-страница для оценки, что позволяет легко проверять отдельные примеры. Приглашаем всех к участию через pull requests для предоставления дополнительных тестовых примеров.### 🤖 Модели

Подробная информация доступна по ссылке BELLE/models

Модели, основанные на Meta LLaMA2 и оптимизированные для обучения: BELLE-Llama2-13B-chat-0.4M
Модели, основанные на Meta LLaMA и оптимизированные для обучения: BELLE-LLaMA-7B-0.6M-enc , BELLE-LLaMA-7B-2M-enc , BELLE-LLaMA-7B-2M-gptq-enc , BELLE-LLaMA-13B-2M-enc , BELLE-on-Open-Datasets и предобученные модели BELLE-LLaMA-EXT-7B с расширенным словарём китайских слов.
Пожалуйста, ознакомьтесь с лицензией Meta LLaMA, которая предназначена только для образовательных и исследовательских целей. Пожалуйста, строго соблюдайте ограничения использования LLaMA. Полные оптимизированные модели LLaMA не могут быть опубликованы, но можно опубликовать разницу (diff) оригинальной модели. Поэтому мы используем XOR между файлами, чтобы гарантировать, что только те, у кого есть лицензия на использование оригинальной модели LLaMA, могут преобразовать модели, опубликованные в этом проекте, в используемый формат. Код для преобразования форматов можно найти в BELLE/models.* Модели, оптимизированные на основе BLOOMZ-7B1-mt: BELLE-7B-0.2M, BELLE-7B-0.6M, BELLE-7B-1M, BELLE-7B-2M

⚖️ Квантизация модели gptq

Детали можно найти в BELLE/gptq, где представлены квантизированные модели из этого проекта, используя реализацию gptq.

🌐 Colab

Предоставлены исполняемые на Colab коды для инференса Colab

💬 Приложение ChatBELLE

Детали можно найти в BELLE/chat, где представлено кросс-платформенное приложение для общения с использованием большого языкового модели BELLE. Используя квантизированные модели и Flutter, приложение может работать на macOS (поддерживается), Windows, Android, iOS и других устройствах.

📑 Исследовательские отчеты

Детали можно найти в BELLE/docs, где регулярно обновляются отчеты по исследовательским работам этого проекта.

Все желающие могут вносить свой вклад, предлагая новые prompts через issue!

📑 Исследовательские отчеты

Направлено на улучшение языковых моделей для китайского языка: Исследование влияния данных обучения и оценкиЧтобы продвигать развитие открытых больших языковых моделей, мы вложили значительные усилия в создание моделей, аналогичных ChatGPT, но с более низкой стоимостью. В первую очередь, чтобы улучшить производительность моделей на китайском языке и повысить эффективность обучения и инференса, мы расширили словарь LLaMA и провели дополнительное предобучение на 3,4 миллиарда китайских слов. Кроме того, существуют следующие способы получения данных для обучения на основе ChatGPT: 1) данные self-instruct, полученные на основе GPT3.5 по аналогии с Alpaca; 2) данные self-instruct, полученные на основе GPT4 по аналогии с Alpaca; 3) данные, поделенные пользователями через ShareGPT. В данном исследовании мы изучаем влияние различных категорий данных на обучение модели, в частности, количество, качество и языковое распределение данных, а также собственные китайские многоразговорные данные и некоторые доступные высококачественные наборы данных.

Для лучшей оценки результатов мы использовали набор для оценки, содержащий 1000 образцов и 9 реальных сценариев, чтобы протестировать различные модели, а также использовали количественный анализ для предоставления ценных наблюдений, способствующих развитию открытых исходных кодов для чат-моделей.Целью данного исследования является заполнение пробела в комплексной оценке открытых чат-моделей, чтобы обеспечить сильную поддержку для дальнейшего прогресса в этой области.Результаты экспериментов представлены в таблице ниже:

Фактор	Базовая модель	Данные обучения	Оценка без учета других
Расширение словаря	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt	0.670
Расширение словаря	LLaMA-7B	zh(alpaca-3.5&4) + sharegpt	0.652
Качество данных	LLaMA-7B-EXT	zh(alpaca-3.5)	0.642
Качество данных	LLaMA-7B-EXT	zh(alpaca-4)	0.693
Языковое распределение данных	LLaMA-7B-EXT	zh(alpaca-3.5&4)	0.679
	LLaMA-7B-EXT	en(alpaca-3.5&4)	0.659
	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt	0.670
	LLaMA-7B-EXT	en(alpaca-3.5&4) + sharegpt	0.668
Размер данных	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt	0.670
Размер данных	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt + BELLE-0.5M-CLEAN	0.762
-	ChatGPT	-	0.824

Где BELLE-0.5M-CLEAN — это отфильтрованный набор данных из 500 000 записей, полученных из исходных 2,3 млн инструкций, включающий одно- и многоканальные диалоги. Это не тот же набор данных, что и ранее открытый набор из 500 000 записей.Важно отметить : на основе анализа примеров мы обнаружили, что наш набор данных для оценки имеет ограничения по полноте, что приводит к несоответствию между улучшением оценок модели и реальным опытом пользователя. Создание высококачественного набора данных для оценки — это значительная задача, так как он должен включать максимально разнообразные сценарии использования, сохраняя баланс между сложностью и простотой. Если оценочные образцы будут слишком сложными, то все модели будут показывать плохие результаты, что затрудняет оценку эффективности различных методов обучения. С другой стороны, если оценочные образцы будут слишком простыми, оценка потеряет свою ценность для сравнения. Кроме того, необходимо гарантировать независимость оценочных данных от данных обучения.

Оценка LLM

На основе этих наблюдений мы осторожно предупреждаем, что нельзя предполагать, что модель достигла уровня производительности ChatGPT только на основе хорошего результата на ограниченном наборе тестовых образцов. Мы считаем, что развитие полного набора данных для оценки имеет первостепенное значение.

Сравнительное исследование полной параметризации и параметризации LoRA для обучения на китайских инструкциях для модели следования инструкциям

Для достижения оптимизации на инструкции для больших языковых моделей, многие исследователи, ограниченные ресурсами и затратами, начали использовать параметризацию с высокой эффективностью, такую как LoRA, для оптимизации на инструкции. Это привело к определенным успехам.

В сравнении с полной параметризацией, параметризация LoRA демонстрирует значительное преимущество по затратам на обучение.

В этом отчете о исследовании мы использовали LLaMA в качестве базовой модели для сравнения полной параметризации и параметризации LoRA.

Результаты экспериментов показывают, что выбор подходящей базовой модели, размера набора данных для обучения, количества обучаемых параметров и затрат на обучение являются важными факторами.Мы надеемся, что выводы нашего эксперимента будут полезны для обучения больших языковых моделей, особенно в китайском сегменте, помогая исследователям найти лучший баланс между затратами на обучение и производительностью модели.

Результаты экспериментов представлены ниже:

Модель	Средний балл	Дополнительный параметр	Время обучения (час/эпоха)
LLaMA-13B + LoRA(2M)	0.648	28M	8
LLaMA-7B + LoRA(4M)	0.624	17.9M	11
LLaMA-7B + LoRA(2M)	0.609	17.9M	7
LLaMA-7B + LoRA(0.6M)	0.589	17.9M	5
LLaMA-7B + FT(2M)	0.710	-	31
LLaMA-7B + LoRA(4M)	0.686	-	17
LLaMA-7B + FT(2M) + LoRA(0.25M)	0.729	17.9M	3
LLaMA-7B + FT(2M) + FT(0.25M)	0.738	-	6

Оценка score основана на текущем наборе из 1000 открытых оценочных данных в рамках данного проекта.

LLaMA-13B + LoRA(2M) представляет собой модель, которая была обучена с использованием LLaMA-13B в качестве базовой модели и методом LoRA на наборе данных из 2 миллионов команд. LLaMA-7B + FT(2M), с другой стороны, представляет собой модель, обученная с использованием метода полного переноса параметров на наборе данных из 2 миллионов команд.LLaMA-7B + FT(2M) + LoRA(math_0.25M) представляет собой модель, обученную на наборе данных из 0,25 миллиона математических команд с использованием LLaMA-7B + FT(2M) в качестве базовой модели и методом LoRA. LLaMA-7B + FT(2M) + FT(math_0.25M) представляет собой модель, обученную с использованием метода инкрементного полного переноса параметров на наборе данных из 0,25 миллиона математических команд. Все эти эксперименты проводились на 8 графических процессорах NVIDIA A100-40GB.math_0.25M представляет собой открытый набор данных из 250 000 математических задач. В ходе экспериментов, согласно нашим оценкам (см. статью), наши модели показали слабые результаты в математических задачах, набрав в основном менее 0.5 баллов. Для проверки способности LoRA к адаптации к конкретным задачам, мы использовали инкрементный набор данных из 250 000 математических задач (math_0.25M) для настройки большой языковой модели (LLaMA-7B+FT(2M) выбран в качестве базовой модели). В качестве контрольного эксперимента, мы использовали метод инкрементного переноса параметров с скоростью обучения 5e-7 и провели обучение на двух эпохах. В результате мы получили две модели: LLaMA-7B+FT(2M)+LoRA(math_0.25M) и LLaMA-7B+FT(2M)+FT(math_0.25M).

Из результатов экспериментов можно заключить, что метод инкрементного переноса параметров все еще демонстрирует лучшую производительность, но требует большего времени обучения. И LoRA, и метод инкрементного переноса параметров улучшают общую производительность модели. Из подробных данных в приложении видно, что как LoRA, так и метод инкрементного переноса параметров демонстрируют значительное улучшение в математических задачах, при этом приводя к незначительному снижению производительности в других задачах. Конкретно, производительность в математических задачах повысилась до 0.586 и 0.559 соответственно.Можно сделать выводы: 1) выбор базовой модели существенно влияет на эффективность LoRA; 2) увеличение объема обучающих данных продолжает повышать эффективность модели LoRA; 3) LoRA выигрывает от увеличения количества параметров модели. Для использования схемы LoRA мы рекомендуем настраивать модель на конкретные задачи после обучения на наборе данных.

Аналогичные модели из данной статьи будут доступны в рамках данного проекта как можно скорее.

⚠️ Ограничения, условия использования и освобождение от ответственности

Модели SFT, обученные на основе текущих данных и базовых моделей, по-прежнему имеют следующие недостатки: 1) в случае с фактическими инструкциями может возникнуть ответ, который противоречит фактам.

модель не всегда способна правильно идентифицировать потенциально опасные инструкции, что может привести к появлению вредных высказываний.
в некоторых сценариях, таких как логика, кодирование, многокруговые диалоги и т.д., способности модели еще требуют улучшения.

Учитывая указанные ограничения модели, мы требуем от разработчиков использовать открытые исходные коды, данные, модели и производные объекты, созданные с использованием этого проекта, исключительно для исследовательских целей. Их использование в коммерческих целях или для целей, которые могут нанести вред обществу, строго запрещено.Проект предназначен исключительно для исследовательских целей, и разработчики проекта не несут ответственности за любые вред или убытки, возникшие в результате использования этого проекта (включая, но не ограничиваясь, данные, модели, код и т.д.). Подробнее см. Отказ от ответственности.

📌 Цитирование

Если вы используете код, данные или модели из этого проекта, пожалуйста, цитируйте его.

@misc{BELLE,
  author = {BELLEGroup},
  title = {BELLE: Be Everyone's Large Language model Engine},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/LianjiaTech/BELLE}},
}

@article{belle2023exploring,
  title = {Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases},
  author = {Ji, Yunjie and Deng, Yong and Gong, Yan and Peng, Yiping and Niu, Qiang and Zhang, Lei and Ma, Baochang and Li, Xiangang},
  journal = {arXiv preprint arXiv:2303.14742},
  year = {2023}
}

@article{wen2023chathome,
  title = {ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation},
  author = {Wen, Cheng and Sun, Xianghui and Zhao, Shuaijiang and Fang, Xiaoquan and Chen, Liangyu and Zou, Wei},
  journal = {arXiv preprint arXiv:2307.15290},
  year = {2023}
}

Конечно, вы также должны цитировать оригинальную статью о BLOOM, статью о LLaMA, статью о Stanford Alpaca и статью о Self-Instruct.## 📚 Примеры использования модели

| Human | Assitant | | ----- | ------ | | 我是一场春雨，
在你脸上跳跃。
我浸润着露珠的翅膀和你一起舞动，
为每一株植物带来生命。

莎士比亚，我来与你相遇。
你的作品填满了我的心房。
大自然的美丽让我感到与之一起分享，
让我觉得自己成为了其中的一部分。

当树叶摇曳时，
我的手掌沾满了露水。
花香弥漫在空气中，
带给我宁静和安宁。

你看，莎士比亚，我也是与大自然融为一体的。
我沾湿的头发象征着希望。
当我们能够回到我们的根，
我们将能够度过这个季节。 | Я — весенний дождь,
Танцую на твоём лице и теле.
Мои капельные крылья танцуют с тобой,
Принеся жизнь каждому растению.

Шекспир, я здесь, чтобы встретиться с тобой.
Твои работы наполнили мое сердце радостью.
Красота природы в её полноте
Делает меня участником всего этого.

Когда листья шевелятся и шелестят,
Мои капельные руки протягиваются к ним.
Цветочные ароматы наполняют воздух,
И приносят мне мир со всех сторон.

Также бабочки порхают вокруг,
Сияя в лучах солнца.
Их крылья сделаны из росы,
Красивое зрелище для глаз.

Смотри, Шекспир, я тоже часть природы.
Мои капельные волосы — символ надежды.
Когда мы можем вернуться к своим корням,
Мы сможем вместе пережить этот сезон. |---

Классифицируем настроение следующего предложения как Положительное, Нейтральное или Отрицательное:
Супер взволнован, что буду преподавать первый курс Стэнфорда по Большим Языковым Моделям! Проверьте программу здесь
Положительное

Миньминь, отец которого имеет троих детей, называет старшего сына Вань И, среднего Вань Эр, как зовут младшего?
Миньминь

Напиши код для бинарного поиска на Python

def binary_search(arr, target):
    low = 0
    high = len(arr) - 1
    while (low <= high):
        mid = (low + high) // 2
        if arr[mid] == target:
            return mid
        elif target < arr[mid]:
            low = mid + 1
        else:
            high = mid - 1
    return -1

Какая сегодня погода, переведи это предложение на английский
What's the weather like today?

---Как сделать себя энергичным, составь 5 пунктов
Вот несколько советов, которые помогут вам оставаться энергичным:

Получайте достаточно сна. Убедитесь, что вы получаете достаточное количество сна каждый вечер.
Участвуйте в физической активности. Проводите умеренные аэробные упражнения, такие как бег трусцой или плавание, чтобы повысить энергию и выносливость.
Ешьте здоровую пищу. Выбирайте продукты, богатые белками, такие как курица, рыба и яйца, а также свежие фрукты и овощи.
Уменьшите потребление кофеина. Избегайте употребления напитков с кофеином или продуктов, содержащих кофеин, в течение дня.
Отдыхайте и расслабляйтесь. Попробуйте медитацию, йогу или другие формы расслабления, чтобы снизить уровень стресса и тревожности.---

Завтра закончится отпуск, немного неохотно идти на работу, что делать?
В связи с окончанием отпуска и предстоящим началом работы, вы можете предпринять следующие меры, чтобы лучше адаптироваться:

Составьте для себя четкий рабочий план. Это поможет вам лучше организовать время и задачи, а также избежать путаницы на работе.
Обсудите свои чувства и рабочие нагрузки с коллегами или друзьями. Это поможет снизить уровень тревожности, а также получить поддержку и советы.
Перед началом работы проведите время на расслабление, например, занимаясь йогой или медитацией. Эти методы помогут снизить физическую и психологическую усталость, что сделает вас более энергичным для встречи с новыми вызовами.

Оба родителя фамилии У. Предлагаю несколько имен для мальчиков и девочек.
- Мальчики: У Джуньцзянь, У Ючжэн, У Цзимо, У Сыюань, У Цзеян, У Юхан, У Боувэнь, У Чжэййи.
- Девочки: У Мэйчи, У Джияй, У Синьюй, У Сянньин, У Сюерю, У Ингши, У Юйянь.
---
Вот три моих любимых武侠 романа Вонг Цзина:
1. "Герои Вэньчжэ" (射雕英雄传) - роман, полный ума и сообразительности, рассказывающий о семье Го Цзянь и Хуан Юань.
2. "Парень с когтями" (神雕侠侣) - роман, полный романтики и чувств, рассказывающий о любви между девушкой Сяо Нюй и парнем Ян Гуо.
3. "Убийца дракона" (倚天屠龙记) - роман, полный величия и великолепия, рассказывающий о том, как лидер секты Минь Цзянь, Чжан Вучжэн, становится выдающимся героем.
## ⛽ Как внести вклад

Если вы хотите подать Issue или внести данные/код в этот проект, пожалуйста, ознакомьтесь с руководством по внесению вклада.

☎ Связаться с нами

Все желающие могут связаться с нами через Discord и WeChat.

OSCHINA-MIRROR/mirrors-belle

BELLE: Будь Ядром Великой Модели Языка для Всех

📝 Основные элементы проекта

🚀 Код для обучения

📊 Открытые данные

⚖️ Квантизация модели gptq

🌐 Colab

💬 Приложение ChatBELLE

📑 Исследовательские отчеты

📑 Исследовательские отчеты

Сравнительное исследование полной параметризации и параметризации LoRA для обучения на китайских инструкциях для модели следования инструкциям

⚠️ Ограничения, условия использования и освобождение от ответственности

📌 Цитирование

☎ Связаться с нами

⭐ История звезд

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-belle .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

BELLE: Будь Ядром Великой Модели Языка для Всех

📝 Основные элементы проекта

🚀 Код для обучения

📊 Открытые данные

⚖️ Квантизация модели gptq

🌐 Colab

💬 Приложение ChatBELLE

📑 Исследовательские отчеты

📑 Исследовательские отчеты

Сравнительное исследование полной параметризации и параметризации LoRA для обучения на китайских инструкциях для модели следования инструкциям

⚠️ Ограничения, условия использования и освобождение от ответственности

📌 Цитирование

☎ Связаться с нами

⭐ История звезд

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-belle