1 В избранное 0 Ответвления 0

GITHUB-MIRROR/MooreThreads-vllm_musa

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

vLLM

Простая, быстрая и дешёвая служба LLM для всех

| Документация | Блог | Статья | Discord |

Последние новости 🔥

  • [2024/04] Мы провели третью встречу vLLM вместе с Roblox! Презентации встречи доступны здесь.
  • [2024/01] Мы провели вторую встречу vLLM в Сан-Франциско! Презентации встречи доступны здесь.
  • [2024/01] Добавлена поддержка ROCm 6.0 в vLLM.
  • [2023/12] Добавлена поддержка ROCm 5.7 в vLLM.
  • [2023/10] Мы провели первую встречу vLLM в Сан-Франциско! Презентации встречи доступны здесь.
  • [2023/09] Мы запустили наш сервер на Discord! Присоединяйтесь к нам, чтобы обсудить vLLM и службу LLM. Там мы также будем публиковать последние объявления и обновления.
  • [2023/09] Мы опубликовали нашу статью о PagedAttention на arXiv!
  • [2023/08] Мы выражаем искреннюю благодарность компании Andreessen Horowitz (a16z) за предоставление гранта на поддержку открытого развития и исследований vLLM.
  • [2023/07] Добавлена поддержка LLaMA-2! Вы можете запускать и обслуживать 7B/13B/70B LLaMA-2 с помощью одной команды!
  • [2023/06] Обслуживание vLLM на любой облаковой платформе с помощью SkyPilot. Посмотрите пример здесь, чтобы запустить демонстрацию vLLM, и здесь для истории разработки vLLM на облаках.
  • [2023/06] Мы официально выпустили vLLM! Интеграция FastChat-vLLM обеспечивает работу LMSYS Vicuna и Chatbot Arena с апреля. Подробнее в нашем блоге.

О проекте

vLLM — это быстрая и удобная библиотека для инференса и обслуживания LLM.

vLLM быстро благодаря:

  • Современной производительности при обслуживании
  • Эффективному управлению памятью ключей и значений с помощью PagedAttention
  • Непрерывной группировке входящих запросов
  • Быстрому выполнению модели с использованием CUDA/HIP графа
  • Квантизация: GPTQ, AWQ, SqueezeLLM, FP8 KV Cache
  • Оптимизированные CUDA ядра

vLLM гибок и удобен в использовании:

  • Легкая интеграция с популярными моделями Hugging Face
  • Высокопроизводительное обслуживание с различными алгоритмами декодирования, включая параллельную выборку, beam search и другие
  • Поддержка тензорного параллелизма для распределенного инференса
  • Стreaming вывода
  • API сервер совместимый с OpenAI
  • Поддержка NVIDIA GPU и AMD GPU
  • (Экспериментальная) Поддержка кеширования префиксов
  • (Экспериментальная) Поддержка multi-lora

vLLM поддерживает многие модели Hugging Face, включая следующие архитектуры:

  • Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B и т.д.)
  • Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B и т.д.)
  • BLOOM (bigscience/bloom, bigscience/bloomz и т.д.)
  • ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b и т.д.)
  • Command-R (CohereForAI/c4ai-command-r-v01 и т.д.)
  • DBRX (databricks/dbrx-base, databricks/dbrx-instruct и т.д.)
  • DeciLM (Deci/DeciLM-7B, Deci/DeciLM-7B-instruct и т.д.)
  • Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b и т.д.)
  • Gemma (google/gemma-2b, google/gemma-7b и т.д.)
  • GPT-2 (gpt2, gpt2-xl и т.д.)
  • GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder и т.д.)
  • GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j и т.д.)
  • GPT-NeoX (EleutherAI/gpt-neox-20b, databricks/dolly-v2-12b, stabilityai/stablelm-tuned-alpha-7b и т.д.)
  • InternLM (internlm/internlm-7b, internlm/internlm-chat-7b и т.д.)
  • InternLM2 (internlm/internlm2-7b, internlm/internlm2-chat-7b и т.д.)
  • Jais (core42/jais-13b, core42/jais-13b-chat, core42/jais-30b-v3, core42/jais-30b-chat-v3 и т.д.)
  • LLaMA, Llama 2 и Meta Llama 3 (meta-llama/Meta-Llama-3-8B-Instruct, meta-llama/Meta-Llama-3-70B-Instruct, meta-llama/Llama-2-70b-hf, lmsys/vicuna-13b-v1.3, young-geng/koala, openlm-research/open_llama_13b и т.д.)
  • MiniCPM (openbmb/MiniCPM-2B-sft-bf16, openbmb/MiniCPM-2B-dpo-bf16 и т.д.)
  • Mistral (mistralai/Mistral-7B-v0.1, mistralai/Mistral-7B-Instruct-v0.1 и т.д.)
  • Mixtral (mistralai/Mixtral-8x7B-v0.1, mistralai/Mixtral-8x7B-Instruct-v0.1, mistral-community/Mixtral-8x22B-v0.1 и т.д.)
  • MPT (mosaicml/mpt-7b, mosaicml/mpt-30b и т.д.)
  • OLMo (allenai/OLMo-1B-hf, allenai/OLMo-7B-hf и т.д.)
  • OPT (facebook/opt-66b, facebook/opt-iml-max-30b и т.д.)
  • Orion (OrionStarAI/Orion-14B-Base, OrionStarAI/Orion-14B-Chat и т.д.)
  • Phi (microsoft/phi-1_5, microsoft/phi-2 и т.д.)
  • Phi-3 (microsoft/Phi-3-mini-4k-instruct, microsoft/Phi-3-mini-128k-instruct и т.д.)
  • Qwen (Qwen/Qwen-7B, Qwen/Qwen-7B-Chat и т.д.)
  • Qwen2 (Qwen/Qwen1.5-7B, Qwen/Qwen1.5-7B-Chat и т.д.)
  • Qwen2MoE (Qwen/Qwen1.5-MoE-A2.7B, Qwen/Qwen1.5-MoE-A2.7B-Chat и т.д.)
  • StableLM(stabilityai/stablelm-3b-4e1t, stabilityai/stablelm-base-alpha-7b-v2 и т.д.)
  • Starcoder2(bigcode/starcoder2-3b, bigcode/starcoder2-7b, bigcode/starcoder2-15b и т.д.)
  • Xverse (xverse/XVERSE-7B-Chat, xverse/XVERSE-13B-Chat, xverse/XVERSE-65B-Chat и т.д.)
  • Yi (01-ai/Yi-6B, 01-ai/Yi-34B и т.д.)

Установите vLLM с помощью pip или из исходного кода:

pip install vllm

Начало работы

Посетите нашу документацию, чтобы начать работу.

Вклад

Мы приветствуем и ценим любые вклады и сотрудничество. Пожалуйста, ознакомьтесь с CONTRIBUTING.md, чтобы узнать, как участвовать.

Цитирование

Если вы используете vLLM для своей научной работы, пожалуйста, цитируйте нашу статью:

@inproceedings{kwon2023efficient,
  title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
  author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
  booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
  year={2023}
}

vllm с MUSA

Пожалуйста, обратитесь к README_vllm_musa.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Высокопроизводительный и экономичный в использовании памяти движок для инференса и развертывания моделей LLM (Large Language Models). Развернуть Свернуть
Python и 6 других языков
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/github-mirror/MooreThreads-vllm_musa.git
git@api.gitlife.ru:github-mirror/MooreThreads-vllm_musa.git
github-mirror
MooreThreads-vllm_musa
MooreThreads-vllm_musa
main