MooreThreads-vllm_musa: Высокопроизводительный и экономичный в использовании памяти движок для инференса и развертывания моделей LLM (Large Language Models).

Простая, быстрая и дешёвая служба LLM для всех

Последние новости 🔥

[2024/04] Мы провели третью встречу vLLM вместе с Roblox! Презентации встречи доступны здесь.
[2024/01] Мы провели вторую встречу vLLM в Сан-Франциско! Презентации встречи доступны здесь.
[2024/01] Добавлена поддержка ROCm 6.0 в vLLM.
[2023/12] Добавлена поддержка ROCm 5.7 в vLLM.
[2023/10] Мы провели первую встречу vLLM в Сан-Франциско! Презентации встречи доступны здесь.
[2023/09] Мы запустили наш сервер на Discord! Присоединяйтесь к нам, чтобы обсудить vLLM и службу LLM. Там мы также будем публиковать последние объявления и обновления.
[2023/09] Мы опубликовали нашу статью о PagedAttention на arXiv!
[2023/08] Мы выражаем искреннюю благодарность компании Andreessen Horowitz (a16z) за предоставление гранта на поддержку открытого развития и исследований vLLM.
[2023/07] Добавлена поддержка LLaMA-2! Вы можете запускать и обслуживать 7B/13B/70B LLaMA-2 с помощью одной команды!
[2023/06] Обслуживание vLLM на любой облаковой платформе с помощью SkyPilot. Посмотрите пример здесь, чтобы запустить демонстрацию vLLM, и здесь для истории разработки vLLM на облаках.
[2023/06] Мы официально выпустили vLLM! Интеграция FastChat-vLLM обеспечивает работу LMSYS Vicuna и Chatbot Arena с апреля. Подробнее в нашем блоге.

О проекте

vLLM — это быстрая и удобная библиотека для инференса и обслуживания LLM.

vLLM быстро благодаря:

Современной производительности при обслуживании
Эффективному управлению памятью ключей и значений с помощью PagedAttention
Непрерывной группировке входящих запросов
Быстрому выполнению модели с использованием CUDA/HIP графа
Квантизация: GPTQ, AWQ, SqueezeLLM, FP8 KV Cache
Оптимизированные CUDA ядра

vLLM гибок и удобен в использовании:

Легкая интеграция с популярными моделями Hugging Face
Высокопроизводительное обслуживание с различными алгоритмами декодирования, включая параллельную выборку, beam search и другие
Поддержка тензорного параллелизма для распределенного инференса
Стreaming вывода
API сервер совместимый с OpenAI
Поддержка NVIDIA GPU и AMD GPU
(Экспериментальная) Поддержка кеширования префиксов
(Экспериментальная) Поддержка multi-lora

vLLM поддерживает многие модели Hugging Face, включая следующие архитектуры:

Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B и т.д.)
Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B и т.д.)
BLOOM (bigscience/bloom, bigscience/bloomz и т.д.)
ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b и т.д.)
Command-R (CohereForAI/c4ai-command-r-v01 и т.д.)
DBRX (databricks/dbrx-base, databricks/dbrx-instruct и т.д.)
DeciLM (Deci/DeciLM-7B, Deci/DeciLM-7B-instruct и т.д.)
Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b и т.д.)
Gemma (google/gemma-2b, google/gemma-7b и т.д.)
GPT-2 (gpt2, gpt2-xl и т.д.)
GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder и т.д.)
GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j и т.д.)
GPT-NeoX (EleutherAI/gpt-neox-20b, databricks/dolly-v2-12b, stabilityai/stablelm-tuned-alpha-7b и т.д.)
InternLM (internlm/internlm-7b, internlm/internlm-chat-7b и т.д.)
InternLM2 (internlm/internlm2-7b, internlm/internlm2-chat-7b и т.д.)
Jais (core42/jais-13b, core42/jais-13b-chat, core42/jais-30b-v3, core42/jais-30b-chat-v3 и т.д.)
LLaMA, Llama 2 и Meta Llama 3 (meta-llama/Meta-Llama-3-8B-Instruct, meta-llama/Meta-Llama-3-70B-Instruct, meta-llama/Llama-2-70b-hf, lmsys/vicuna-13b-v1.3, young-geng/koala, openlm-research/open_llama_13b и т.д.)
MiniCPM (openbmb/MiniCPM-2B-sft-bf16, openbmb/MiniCPM-2B-dpo-bf16 и т.д.)
Mistral (mistralai/Mistral-7B-v0.1, mistralai/Mistral-7B-Instruct-v0.1 и т.д.)
Mixtral (mistralai/Mixtral-8x7B-v0.1, mistralai/Mixtral-8x7B-Instruct-v0.1, mistral-community/Mixtral-8x22B-v0.1 и т.д.)
MPT (mosaicml/mpt-7b, mosaicml/mpt-30b и т.д.)
OLMo (allenai/OLMo-1B-hf, allenai/OLMo-7B-hf и т.д.)
OPT (facebook/opt-66b, facebook/opt-iml-max-30b и т.д.)
Orion (OrionStarAI/Orion-14B-Base, OrionStarAI/Orion-14B-Chat и т.д.)
Phi (microsoft/phi-1_5, microsoft/phi-2 и т.д.)
Phi-3 (microsoft/Phi-3-mini-4k-instruct, microsoft/Phi-3-mini-128k-instruct и т.д.)
Qwen (Qwen/Qwen-7B, Qwen/Qwen-7B-Chat и т.д.)
Qwen2 (Qwen/Qwen1.5-7B, Qwen/Qwen1.5-7B-Chat и т.д.)
Qwen2MoE (Qwen/Qwen1.5-MoE-A2.7B, Qwen/Qwen1.5-MoE-A2.7B-Chat и т.д.)
StableLM(stabilityai/stablelm-3b-4e1t, stabilityai/stablelm-base-alpha-7b-v2 и т.д.)
Starcoder2(bigcode/starcoder2-3b, bigcode/starcoder2-7b, bigcode/starcoder2-15b и т.д.)
Xverse (xverse/XVERSE-7B-Chat, xverse/XVERSE-13B-Chat, xverse/XVERSE-65B-Chat и т.д.)
Yi (01-ai/Yi-6B, 01-ai/Yi-34B и т.д.)

Установите vLLM с помощью pip или из исходного кода:

pip install vllm

Начало работы

Посетите нашу документацию, чтобы начать работу.

Вклад

Мы приветствуем и ценим любые вклады и сотрудничество. Пожалуйста, ознакомьтесь с CONTRIBUTING.md, чтобы узнать, как участвовать.

Цитирование

Если вы используете vLLM для своей научной работы, пожалуйста, цитируйте нашу статью:

@inproceedings{kwon2023efficient,
  title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
  author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
  booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
  year={2023}
}

vllm с MUSA

Пожалуйста, обратитесь к README_vllm_musa.

GITHUB-MIRROR/MooreThreads-vllm_musa

Простая, быстрая и дешёвая служба LLM для всех

О проекте

Начало работы

Вклад

Цитирование

vllm с MUSA

Комментарии ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

GITHUB-MIRROR/MooreThreads-vllm_musa .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Простая, быстрая и дешёвая служба LLM для всех

О проекте

Начало работы

Вклад

Цитирование

vllm с MUSA

Комментарии ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

GITHUB-MIRROR/MooreThreads-vllm_musa