Серия моделей GLM-4-0414

👋 Присоединяйтесь к нашему Discord, X и WeChat (китайский)

📍Открытые модели, выпущенные в этот раз, можно протестировать бесплатно на Z.ai; для коммерческих моделей GLM, пожалуйста, посетите bigmodel.cn.

Прочитайте это на русском

Обновления проекта

🔥 Новости: 2025/04/14: Мы выпускаем серию моделей GLM-4-32B-0414, включающую 32 миллиарда параметров, включая модели с возможностями для диалогов, рассуждений и размышлений.
Новости: 2024/06/18: Мы выпустили наш технический отчет, пожалуйста, ознакомьтесь.
Новости: 2024/06/05: Мы выпустили серию открытых моделей GLM-4-9B. Подробности можно найти здесь.

Введение в моделиСемейство GLM приветствует новых членов, серию моделей GLM-4-32B-0414, которая включает 32 миллиарда параметров. Её производительность сопоставима с моделями серии GPT от OpenAI и V3/R1 от DeepSeek. Она также поддерживает удобные для пользователя возможности локальной установки. Модель GLM-4-32B-Base-0414 была предобучена на 15 терабайтах высококачественных данных, включая значительное количество синтетических данных типа рассуждений. Это лежит в основе последующих расширений с помощью обучения с подкреплением. В пост-обучении мы использовали методы выравнивания предпочтений человека для диалоговых сценариев. Кроме того, используя техники, такие как отвержение выбора и обучение с подкреплением, мы улучшили производительность модели в выполнении инструкций, инженерном кодировании и вызове функций, что укрепило атомарные способности, необходимые для задач агентов. Модель GLM-4-32B-0414 демонстрирует хорошие результаты в инженерном кодировании, генерации артефактов, вызове функций, поисковых задачах на основе вопросов и ответов и генерации отчётов. В частности, на нескольких бенчмарках, таких как генерация кода или конкретные задачи на основе вопросов и ответов, модель GLM-4-32B-Base-0414 достигает сопоставимой производительности с более крупными моделями, такими как GPT-4o и DeepSeek-V3-0324 (671B).GLM-Z1-32B-0414 — это модель для логического вывода с глубокими способностями анализа. Она была разработана на основе модели GLM-4-32B-0414 с использованием холодного старта, расширенного обучения с подкреплением и дальнейшего обучения на задачах, включая математику, кодирование и логику. В сравнении с базовой моделью, GLM-Z1-32B-0414 значительно улучшает способности к решению математических задач и сложных задач. В процессе обучения мы также ввели общее обучение с подкреплением на основе обратной связи по парному ранжированию, что повышает общие способности модели. GLM-Z1-Rumination-32B-0414 — это глубокая модель для анализа с возможностями руминации (против Deep Research от OpenAI). В отличие от типичных моделей глубокого анализа, модель руминации способна к более глубокому и продолжительному анализу для решения более открытых и сложных задач (например, написание сравнительного анализа развития ИИ в двух городах и их будущих планах развития). Модель Z1-Rumination обучается с использованием масштабируемого конвейера усиления с оценкой ответов по истинным ответам или критериям, и может использовать поисковые инструменты в процессе глубокого анализа для решения сложных задач. Модель демонстрирует значительное улучшение в написании исследовательских текстов и выполнении сложных задач.Наконец, GLM-Z1-9B-0414 — это сюрприз. Мы использовали все вышеупомянутые техники для обучения малой модели (9 миллиардов параметров). Модель GLM-Z1-9B-0414 обладает отличными способностями в математическом анализе и выполнении общих задач. Её общая производительность занимает верхние позиции среди всех открытых моделей такого же размера. Особенно в ограниченных по ресурсам сценариях, эта модель достигает отличного баланса между эффективностью и эффективностью, предоставляя мощный вариант для пользователей, ищущих легкую установку.

Демонстрация### Генерация анимации

GLM-Z1-32B-0414

GLM-4-32B-0414

Напишите программу на Python, которая показывает, как шарик отскакивает внутри вращающегося шестиугольника. Шарик должен подвергаться действию силы тяжести и трения, а также реалистично отскакивать от вращающихся стен.

Используйте HTML для моделирования сценария, в котором маленький шарик выпускается из центра вращающегося шестиугольника. Рассмотрите столкновение шарика с краями шестиугольника, действие силы тяжести на шарик и предположите, что все столкновения являются абсолютно упругими.

### Веб-дизайн

GLM-4-32B-0414

Создайте доску для рисования, поддерживающую отображение пользовательских функций, позволяющую добавлять и удалять пользовательские функции, а также назначать цвета функциям. (Перевод с китайского)

Создайте пользовательский интерфейс для мобильной платформы машинного обучения, который должен включать интерфейсы для обучения задач, управления хранилищем и личных статистик. Интерфейс личных статистик должен использовать графики для отображения использования ресурсов пользователя за определенный период. Используйте Tailwind CSS для стилизации страницы и отображайте эти 3 мобильных интерфейса в виде плитки на одной HTML-странице. (Перевод с китайского)

Генерация SVG

GLM-4-32B-0414	GLM-4-32B-0414
Создайте сцену туманного Jiangnan с помощью SVG. (Перевод с китайского)	Используйте SVG для иллюстрации процесса обучения LLM. (Перевод с китайского)

Отчет по анализу и исследованию

Анализ развития ИИ в китайских городах: Сравнительное исследование Пекина и Ханчжоу, а также изучение международных случаев применения ИИ в городском управлении.

Список моделей

Серия моделей GLM-4-0414Открытая модель GLM-Z1-9B-0414 Попробуйте онлайн| Модель | Тип | Длина последовательности* | Скачать |

|:--------------------------:|:---------:|:-------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:| | GLM-4-9B-0414 | Чат | 32K -> 128K | 🤗 Huggingface
🤖 ModelScope
🧩 Modelers
🟣 WiseModel | | GLM-Z1-9B-0414 | Решение | 32K -> 128K | 🤗 Huggingface
🤖 ModelScope
🧩 Modelers
🟣 WiseModel | | GLM-4-32B-Base-0414 | База | 32K -> 128K | 🤗 Huggingface
🤖 ModelScope
🧩 Modelers
🟣 WiseModel | | GLM-4-32B-0414 | Чат | 32K -> 128K | 🤗 Huggingface
🤖 ModelScopecn/models/ZhipuAI/GLM-4-32B-0414)
[🧩 Modelers](https://modelers. cn/models/zhipuai/GLM-4-32B-0414)
[🟣 WiseModel](https://wisemodel. cn/models/ZhipuAI/GLM-4-32B-Base-0414) | | GLM-Z1-32B-0414 | Решение | 32K -> 128K | [🤗 Huggingface](https://huggingface. | Модель | Тип | Размер | Ссылки | | --- | --- | --- | --- | | GLM-Z1-32B-0414 | Обсуждение | 32B | [🤗 Huggingface](https://huggingface. co/THUDM/GLM-Z1-32B-0414)
[🤖 ModelScope](https://modelscope. cn/models/ZhipuAI/GLM-Z1-32B-0414)
[🧩 Modelers](https://modelers. cn/models/zhipuai/GLM-Z1-32B-0414)
[🟣 WiseModel](https://wisemodel. cn/models/ZhipuAI/GLM-Z1-32B-0414) | | GLM-Z1-Rumination-32B-0414 | Рассуждение | 32B | [🤗 Huggingface](https://huggingface. co/THUDM/GLM-Z1-Rumination-32B-0414)
[🤖 ModelScope](https://modelscope. cn/models/ZhipuAI/GLM-Z1-Rumination-32B-0414)
[🧩 Modelers](https://modelers. cn/models/zhipuai/GLM-Z1-Rumination-32B-0414)
[🟣 WiseModel](https://wisemodel. cn/models/ZhipuAI/GLM-Z1-Rumination-32B-0414) | Из-за меньшей емкости модели, GLM-4-9B-0414 не прошел таких же улучшений в способностях агента, как GLM-4-32B-0414. Вместо этого он был оптимизирован в первую очередь для сценариев, требующих масштабных пакетных операций, таких как задачи перевода.* Модели изначально обучены с контекстом 32К. Для запросов, где общая длина входных данных + выходных данных может превышать 32К токенов, рекомендуется активировать YaRN для улучшения производительности экстраполяции. Подробнее см. раздел Обучение модели и реализация промптов.Ниже представлены модели серии GLM-4, выпущенные 5 июня 2024 года. Подробности можно найти здесь.

Модель	Тип	Длина последовательности*	Скачать
GLM-4-9B	Base	8K	🤗 Huggingface 🤖 ModelScope
GLM-4-9B-Chat	Chat	128K	🤗 Huggingface 🤖 ModelScope 🟣 WiseModel
GLM-4-9B-Chat-HF	Chat	128K	🤗 Huggingface 🤖 ModelScope
GLM-4-9B-Chat-1M	Chat	1M	🤗 Huggingface 🤖 ModelScope 🟣 WiseModel
GLM-4-9B-Chat-1M-HF	Chat	1M	🤗 Huggingface 🤖 ModelScope
GLM-4V-9B	Chat	8K	🤗 Huggingface 🤖 ModelScope 🟣 WiseModel

Результаты оценки### Серия GLM-4-0414

Модель	IFEval	BFCL-v3 (Общий)	BFCL-v3 (Многоходовая)	TAU-Bench (Розничная)	TAU-Bench (Авиакомпания)	SimpleQA	HotpotQA
Qwen2.5-Max	85.6	50.9	30.5	58.3	22.0	79.0	52.8
GPT-4o-1120	81.9	69.6	41.0	62.8	46.0	82.8	63.9
DeepSeek-V3-0324	83.4	66.2	35.8	60.7	32.4	82.6	54.6
DeepSeek-R1	84.3	57.5	12.4	33.0	37.3	83.9	63.1
GLM-4-32B-0414	87.6	69.6	41.5	68.7	51.2	88.1	63.8

Для SimpleQA и HotpotQA мы отобрали примерно 500 тестовых случаев из каждого набора тестов, предоставили всем моделям базовые search и click инструменты, обеспечили согласованность других настроек и усреднили результаты за 3 запуска.

Модель	Фреймворк	SWE-bench Verified	SWE-bench Verified mini
GLM-4-32B-0414	Moatless^[1]	33.8	38.0
GLM-4-32B-0414	Agentless^[2]	30.7	34.0
GLM-4-32B-0414	OpenHands^[3]	27.2	28.0

[1] Moatless v0.0.3 использовал следующие параметры: response_format="react", thoughts_in_action=False, max_iterations=30. Повторные попытки при неудачных траекториях не производились; остальные настройки по умолчанию.[2] Agentless v1.5.0 использовал BGE в качестве модели векторизации и FAISS для поиска похожих векторов. Для ускорения проверки патчей при сохранении производительности время ожидания выполнения одного экземпляра было изменено с дефолтных 300 секунд до 180 секунд.[3] OpenHands v0.29.1 не использовал расширение контекста YaRN, но ограничил запуски до максимума 60 итераций и свёл историю, чтобы предотвратить превышение лимита контекста в 32К. Суммаризация была настроена как llm_config="condenser", keep_first=1, max_size=32. Повторные попытки при неудачных траекториях не выполнялись.

Серия GLM-Z1-0414

Реализация модели и подсказок

Реализация модели

Если вы хотите посмотреть реализацию нашей модели, пожалуйста, проверьте Pull Requests в соответствующих репозиториях, которые были объединены:

Обработка длинного контекста (YaRN)Если общее количество токенов входа + выхода может превысить нативную длину контекста модели (в основном 32К для серии GLM-4-0414), рекомендуется включить YaRN для улучшения способностей модели к работе с длинным контекстом. Для поддерживаемых фреймворков вы можете изменить соответствующий `config.json`. В частности, для моделей серии GLM-Z1 следует включить YaRN (Rope Scaling), когда длина входа превышает 8 192 токенов.```json

"rope_scaling": { "factor": 4.0, "original_max_position_embeddings": 32768, "type": "yarn" }


Для большинства запросов пользователей, если общее количество токенов входа + выхода не превышает нативную длину контекста, изменения не требуются.

### Тонкая настройка модели

Вы можете найти информацию о вычислительных ресурсах, необходимых для тонкой настройки модели, а также примеры скриптов для тонкой настройки в `finetune/README.md`.

Чтобы запустить простой пример тонкой настройки модели, выполните следующие команды:

```shell
cd finetune
pip install -r ../inference/requirements.txt
pip install -r requirements.txt
# Используйте одиночный GPU для тонкой настройки чата
python finetune.py data/AdvertiseGen/ THUDM/GLM-4-9B-0414 configs/lora.yaml

🎉 Скрипт также поддерживает тонкую настройку с визуальным отслеживанием с помощью SwanLab. Вы можете просмотреть журналы обучения примера скрипта для тонкой настройки на панели визуализации SwanLab.### Реализация Prompt

Если вы используете метод apply_chat_template библиотеки transformers для построения промптов, вот ограничения на System Prompts для различных моделей GLM-4-0414.

GLM-4-32B-Base-0414: базовая модель, без шаблона чата.
GLM-4-*-0414 / GLM-Z1-*-0414: если tools предоставлены, apply_chat_template заполнит инструменты в фиксированный шаблон внутри chat_template, создав отдельное system сообщение с привязками инструментов, предшествующими сообщению (messages[0]). Все исходно переданные messages автоматически сдвигаются на одну позицию назад.

GLM-Z1-Rumination-32B-0414:

Поддерживает четыре инструмента в общей сложности:

1. search
   Описание: Выполняет запрос поиска и возвращает результаты поиска. Используйте это, когда вам нужно найти информацию по определенной теме.
   Параметры: query (строка) - Строка запроса поиска. Используйте английские слова, если это не китайское собственное имя.
```        2. click
   Описание: Нажимает на ссылку из результатов поиска и переходит на соответствующую страницу. Используйте это, когда вам нужно просмотреть подробный контент определенного результата поиска.
   Параметры: link_id (целое число) - ID ссылки для нажатия (из последовательного номера в результатах поиска).

3. open
   Описание: Открывает определённый веб-сайт. Получает содержимое любого веб-сайта по URL.
   Параметры: url (строка) - URL или доменное имя целевого веб-сайта.

4. finish
   Описание: Завершает задачу. Используйте это, когда вы нашли требуемую информацию.
   Параметры: Нет

Фиксированный шаблон в chat_template использует английский для процесса мышления. Если вы хотите изменить на другой язык, вам нужно изменить следующий раздел (в настоящее время поддерживаются китайский и английский):

<Важная Конфигурация>
- Используемый Язык
    * Поисковые Ключевые Слова: английский -> Измените здесь на "китайский" или другой язык
    * Мысли: английский -> Измените здесь на "китайский" или другой язык
```Чтобы увидеть конкретные шаблоны для чата моделей серии GLM-4-0414, пожалуйста, проверьте файл `chat_template.jinja` в соответствующем репозитории модели.

Цитирование

Если вы находите нашу работу полезной, пожалуйста, рассмотрите возможность цитирования следующей статьи.```bibtex @misc{glm2024chatglm, title={ChatGLM: Семейство больших языковых моделей от GLM-130B до GLM-4. Все инструменты}, author={Team GLM и Aohan Zeng и Bin Xu и Bowen Wang и Chenhui Zhang и Da Yin и Diego Rojas и Guanyu Feng и Hanlin Zhao и Hanyu Lai и Hao Yu и Hongning Wang и Jiadai Sun и Jiajie Zhang и Jiale Cheng и Jiayi Gui и Jie Tang и Jing Zhang и Juanzi Li и Lei Zhao и Lindong Wu и Lucen Zhong и Mingdao Liu и Minlie Huang и Peng Zhang и Qinkai Zheng и Rui Lu и Shuaiqi Duan и Shudan Zhang и Shulin Cao и Shuxun Yang и Weng Lam Tam и Wenyi Zhao и Xiao Liu и Xiao Xia и Xiaohan Zhang и Xiaotao Gu и Xin Lv и Xinghan Liu и Xinyi Liu и Xinyue Yang и Xixuan Song и Xunkai Zhang и Yifan An и Yifan Xu и Yilin Niu и Yuantao Yang и Yueyan Li и Yushi Bai и Yuxiao Dong и Zehan Qi и Zhaoyu Wang и Zhen Yang и Zhengxiao Du и Zhenyu Hou и Zihan Wang}, year={2024}, eprint={2406.12793}, archivePrefix={arXiv}, primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Объединяет обработку естественного языка. Включает материалы в ACM Subject Class I.2.7. Заметим, что работы по искусственным языкам (программирование, логика, формальные системы), которые не рассматривают естественный язык в широком смысле (обработка естественного языка, вычислительная лингвистика, речь, поиск текста и т.д.), не подходят для этой области.'} }

OSCHINA-MIRROR/mirrors-GLM-4

Серия моделей GLM-4-0414

Обновления проекта

Демонстрация### Генерация анимации

Генерация SVG

Отчет по анализу и исследованию

Список моделей

Серия моделей GLM-4-0414Открытая модель GLM-Z1-9B-0414 Попробуйте онлайн| Модель | Тип | Длина последовательности* | Скачать |

Результаты оценки### Серия GLM-4-0414

Серия GLM-Z1-0414

Реализация модели и подсказок

Реализация модели

Цитирование

Комментарии ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-GLM-4 .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Серия моделей GLM-4-0414

Обновления проекта

Демонстрация### Генерация анимации

Генерация SVG

Отчет по анализу и исследованию

Список моделей

Серия моделей GLM-4-0414Открытая модель GLM-Z1-9B-0414 Попробуйте онлайн| Модель | Тип | Длина последовательности* | Скачать |

Результаты оценки### Серия GLM-4-0414

Серия GLM-Z1-0414

Реализация модели и подсказок

Реализация модели

Цитирование

Комментарии ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-GLM-4