| Документация | Блог | Статья | Discord |
Последние новости 🔥
vLLM — это быстрая и удобная библиотека для инференса и обслуживания LLM.
vLLM быстро благодаря:
vLLM гибок и удобен в использовании:
vLLM поддерживает многие модели Hugging Face, включая следующие архитектуры:
BAAI/AquilaChat2-7B
, BAAI/AquilaChat2-34B
, BAAI/Aquila-7B
, BAAI/AquilaChat-7B
и т.д.)baichuan-inc/Baichuan2-13B-Chat
, baichuan-inc/Baichuan-7B
и т.д.)bigscience/bloom
, bigscience/bloomz
и т.д.)THUDM/chatglm2-6b
, THUDM/chatglm3-6b
и т.д.)CohereForAI/c4ai-command-r-v01
и т.д.)databricks/dbrx-base
, databricks/dbrx-instruct
и т.д.)Deci/DeciLM-7B
, Deci/DeciLM-7B-instruct
и т.д.)tiiuae/falcon-7b
, tiiuae/falcon-40b
, tiiuae/falcon-rw-7b
и т.д.)google/gemma-2b
, google/gemma-7b
и т.д.)gpt2
, gpt2-xl
и т.д.)bigcode/starcoder
, bigcode/gpt_bigcode-santacoder
и т.д.)EleutherAI/gpt-j-6b
, nomic-ai/gpt4all-j
и т.д.)EleutherAI/gpt-neox-20b
, databricks/dolly-v2-12b
, stabilityai/stablelm-tuned-alpha-7b
и т.д.)internlm/internlm-7b
, internlm/internlm-chat-7b
и т.д.)internlm/internlm2-7b
, internlm/internlm2-chat-7b
и т.д.)core42/jais-13b
, core42/jais-13b-chat
, core42/jais-30b-v3
, core42/jais-30b-chat-v3
и т.д.)meta-llama/Meta-Llama-3-8B-Instruct
, meta-llama/Meta-Llama-3-70B-Instruct
, meta-llama/Llama-2-70b-hf
, lmsys/vicuna-13b-v1.3
, young-geng/koala
, openlm-research/open_llama_13b
и т.д.)openbmb/MiniCPM-2B-sft-bf16
, openbmb/MiniCPM-2B-dpo-bf16
и т.д.)mistralai/Mistral-7B-v0.1
, mistralai/Mistral-7B-Instruct-v0.1
и т.д.)mistralai/Mixtral-8x7B-v0.1
, mistralai/Mixtral-8x7B-Instruct-v0.1
, mistral-community/Mixtral-8x22B-v0.1
и т.д.)mosaicml/mpt-7b
, mosaicml/mpt-30b
и т.д.)allenai/OLMo-1B-hf
, allenai/OLMo-7B-hf
и т.д.)facebook/opt-66b
, facebook/opt-iml-max-30b
и т.д.)OrionStarAI/Orion-14B-Base
, OrionStarAI/Orion-14B-Chat
и т.д.)microsoft/phi-1_5
, microsoft/phi-2
и т.д.)microsoft/Phi-3-mini-4k-instruct
, microsoft/Phi-3-mini-128k-instruct
и т.д.)Qwen/Qwen-7B
, Qwen/Qwen-7B-Chat
и т.д.)Qwen/Qwen1.5-7B
, Qwen/Qwen1.5-7B-Chat
и т.д.)Qwen/Qwen1.5-MoE-A2.7B
, Qwen/Qwen1.5-MoE-A2.7B-Chat
и т.д.)stabilityai/stablelm-3b-4e1t
, stabilityai/stablelm-base-alpha-7b-v2
и т.д.)bigcode/starcoder2-3b
, bigcode/starcoder2-7b
, bigcode/starcoder2-15b
и т.д.)xverse/XVERSE-7B-Chat
, xverse/XVERSE-13B-Chat
, xverse/XVERSE-65B-Chat
и т.д.)01-ai/Yi-6B
, 01-ai/Yi-34B
и т.д.)Установите vLLM с помощью pip или из исходного кода:
pip install vllm
Посетите нашу документацию, чтобы начать работу.
Мы приветствуем и ценим любые вклады и сотрудничество. Пожалуйста, ознакомьтесь с CONTRIBUTING.md, чтобы узнать, как участвовать.
Если вы используете vLLM для своей научной работы, пожалуйста, цитируйте нашу статью:
@inproceedings{kwon2023efficient,
title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
year={2023}
}
Пожалуйста, обратитесь к README_vllm_musa.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )