├── .github
    └── workflows
    │   ├── publish.yml
    │   ├── ruff.yml
    │   ├── scripts
    │       ├── build.sh
    │       ├── create_release.js
    │       ├── cuda-install.sh
    │       ├── env.sh
    │       └── pytorch-install.sh
    │   └── yapf.yml
├── .gitignore
├── .readthedocs.yaml
├── CONTRIBUTING.md
├── Dockerfile
├── Dockerfile.rocm
├── LICENSE
├── MANIFEST.in
├── README.md
├── benchmarks
    ├── README.md
    ├── benchmark_latency.py
    ├── benchmark_serving.py
    ├── benchmark_throughput.py
    ├── kernels
    │   └── benchmark_paged_attention.py
    └── launch_tgi_server.sh
├── csrc
    ├── activation_kernels.cu
    ├── attention
    │   ├── attention_dtypes.h
    │   ├── attention_generic.cuh
    │   ├── attention_kernels.cu
    │   ├── attention_utils.cuh
    │   ├── dtype_bfloat16.cuh
    │   ├── dtype_float16.cuh
    │   └── dtype_float32.cuh
    ├── cache.h
    ├── cache_kernels.cu
    ├── cuda_compat.h
    ├── cuda_utils.h
    ├── cuda_utils_kernels.cu
    ├── dispatch_utils.h
    ├── layernorm_kernels.cu
    ├── ops.h
    ├── pos_encoding_kernels.cu
    ├── pybind.cpp
    ├── quantization
    │   ├── awq
    │   │   ├── dequantize.cuh
    │   │   └── gemm_kernels.cu
    │   └── squeezellm
    │   │   └── quant_cuda_kernel.cu
    └── reduction_utils.cuh
├── docs
    ├── Makefile
    ├── README.md
    ├── make.bat
    ├── requirements-docs.txt
    └── source
    │   ├── assets
    │       └── logos
    │       │   ├── vllm-logo-only-light.png
    │       │   ├── vllm-logo-text-dark.png
    │       │   └── vllm-logo-text-light.png
    │   ├── conf.py
    │   ├── getting_started
    │       ├── amd-installation.rst
    │       ├── installation.rst
    │       └── quickstart.rst
    │   ├── index.rst
    │   ├── models
    │       ├── adding_model.rst
    │       ├── engine_args.rst
    │       └── supported_models.rst
    │   ├── quantization
    │       └── auto_awq.rst
    │   └── serving
    │       ├── deploying_with_docker.rst
    │       ├── deploying_with_triton.rst
    │       ├── distributed_serving.rst
    │       ├── metrics.rst
    │       ├── run_on_sky.rst
    │       └── serving_with_langchain.rst
├── examples
    ├── api_client.py
    ├── gradio_webserver.py
    ├── llm_engine_example.py
    ├── offline_inference.py
    ├── openai_chatcompletion_client.py
    ├── openai_completion_client.py
    ├── template_alpaca.jinja
    ├── template_chatml.jinja
    └── template_inkbot.jinja
├── format.sh
├── mypy.ini
├── patch_xformers-0.0.22.post7.rocm.sh
├── pyproject.toml
├── requirements-build.txt
├── requirements-dev.txt
├── requirements-rocm.txt
├── requirements.txt
├── rocm_patch
    ├── commonpy_xformers-0.0.22.post7.rocm.patch
    └── flashpy_xformers-0.0.22.post7.rocm.patch
├── setup.py
├── tests
    ├── __init__.py
    ├── async_engine
    │   ├── api_server_async_engine.py
    │   ├── test_api_server.py
    │   ├── test_async_llm_engine.py
    │   ├── test_openai_server.py
    │   └── test_request_tracker.py
    ├── conftest.py
    ├── distributed
    │   └── test_comm_ops.py
    ├── engine
    │   └── test_detokenize.py
    ├── kernels
    │   ├── conftest.py
    │   ├── test_activation.py
    │   ├── test_attention.py
    │   ├── test_cache.py
    │   ├── test_layernorm.py
    │   └── test_pos_encoding.py
    ├── models
    │   └── test_models.py
    ├── samplers
    │   ├── test_beam_search.py
    │   ├── test_logprobs.py
    │   └── test_sampler.py
    ├── test_regression.py
    └── worker
    │   └── test_model_runner.py
└── vllm
    ├── __init__.py
    ├── block.py
    ├── config.py
    ├── core
        ├── __init__.py
        ├── block_manager.py
        ├── policy.py
        └── scheduler.py
    ├── engine
        ├── __init__.py
        ├── arg_utils.py
        ├── async_llm_engine.py
        ├── llm_engine.py
        ├── metrics.py
        └── ray_utils.py
    ├── entrypoints
        ├── __init__.py
        ├── api_server.py
        ├── llm.py
        └── openai
        │   ├── __init__.py
        │   ├── api_server.py
        │   └── protocol.py
    ├── logger.py
    ├── model_executor
        ├── __init__.py
        ├── input_metadata.py
        ├── layers
        │   ├── __init__.py
        │   ├── activation.py
        │   ├── attention.py
        │   ├── layernorm.py
        │   ├── linear.py
        │   ├── quantization
        │   │   ├── __init__.py
        │   │   ├── awq.py
        │   │   ├── base_config.py
        │   │   └── squeezellm.py
        │   ├── rotary_embedding.py
        │   ├── sampler.py
        │   └── vocab_parallel_embedding.py
        ├── model_loader.py
        ├── models
        │   ├── __init__.py
        │   ├── aquila.py
        │   ├── baichuan.py
        │   ├── bloom.py
        │   ├── chatglm.py
        │   ├── falcon.py
        │   ├── gpt2.py
        │   ├── gpt_bigcode.py
        │   ├── gpt_j.py
        │   ├── gpt_neox.py
        │   ├── internlm.py
        │   ├── llama.py
        │   ├── mistral.py
        │   ├── mixtral.py
        │   ├── mpt.py
        │   ├── opt.py
        │   ├── phi_1_5.py
        │   ├── qwen.py
        │   └── yi.py
        ├── parallel_utils
        │   ├── README.md
        │   ├── __init__.py
        │   ├── communication_op.py
        │   ├── parallel_state.py
        │   └── utils.py
        ├── sampling_metadata.py
        ├── utils.py
        └── weight_utils.py
    ├── outputs.py
    ├── py.typed
    ├── sampling_params.py
    ├── sequence.py
    ├── transformers_utils
        ├── __init__.py
        ├── config.py
        ├── configs
        │   ├── __init__.py
        │   ├── aquila.py
        │   ├── baichuan.py
        │   ├── chatglm.py
        │   ├── falcon.py
        │   ├── mpt.py
        │   ├── qwen.py
        │   └── yi.py
        ├── tokenizer.py
        └── tokenizers
        │   ├── __init__.py
        │   └── baichuan.py
    ├── utils.py
    └── worker
        ├── __init__.py
        ├── cache_engine.py
        ├── model_runner.py
        └── worker.py


/.github/workflows/publish.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/publish.yml


--------------------------------------------------------------------------------
/.github/workflows/ruff.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/ruff.yml


--------------------------------------------------------------------------------
/.github/workflows/scripts/build.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/scripts/build.sh


--------------------------------------------------------------------------------
/.github/workflows/scripts/create_release.js:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/scripts/create_release.js


--------------------------------------------------------------------------------
/.github/workflows/scripts/cuda-install.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/scripts/cuda-install.sh


--------------------------------------------------------------------------------
/.github/workflows/scripts/env.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/scripts/env.sh


--------------------------------------------------------------------------------
/.github/workflows/scripts/pytorch-install.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/scripts/pytorch-install.sh


--------------------------------------------------------------------------------
/.github/workflows/yapf.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.github/workflows/yapf.yml


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.gitignore


--------------------------------------------------------------------------------
/.readthedocs.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/.readthedocs.yaml


--------------------------------------------------------------------------------
/CONTRIBUTING.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/CONTRIBUTING.md


--------------------------------------------------------------------------------
/Dockerfile:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/Dockerfile


--------------------------------------------------------------------------------
/Dockerfile.rocm:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/Dockerfile.rocm


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/LICENSE


--------------------------------------------------------------------------------
/MANIFEST.in:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/MANIFEST.in


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/README.md


--------------------------------------------------------------------------------
/benchmarks/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/benchmarks/README.md


--------------------------------------------------------------------------------
/benchmarks/benchmark_latency.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/benchmarks/benchmark_latency.py


--------------------------------------------------------------------------------
/benchmarks/benchmark_serving.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/benchmarks/benchmark_serving.py


--------------------------------------------------------------------------------
/benchmarks/benchmark_throughput.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/benchmarks/benchmark_throughput.py


--------------------------------------------------------------------------------
/benchmarks/kernels/benchmark_paged_attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/benchmarks/kernels/benchmark_paged_attention.py


--------------------------------------------------------------------------------
/benchmarks/launch_tgi_server.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/benchmarks/launch_tgi_server.sh


--------------------------------------------------------------------------------
/csrc/activation_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/activation_kernels.cu


--------------------------------------------------------------------------------
/csrc/attention/attention_dtypes.h:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/attention_dtypes.h


--------------------------------------------------------------------------------
/csrc/attention/attention_generic.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/attention_generic.cuh


--------------------------------------------------------------------------------
/csrc/attention/attention_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/attention_kernels.cu


--------------------------------------------------------------------------------
/csrc/attention/attention_utils.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/attention_utils.cuh


--------------------------------------------------------------------------------
/csrc/attention/dtype_bfloat16.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/dtype_bfloat16.cuh


--------------------------------------------------------------------------------
/csrc/attention/dtype_float16.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/dtype_float16.cuh


--------------------------------------------------------------------------------
/csrc/attention/dtype_float32.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/attention/dtype_float32.cuh


--------------------------------------------------------------------------------
/csrc/cache.h:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/cache.h


--------------------------------------------------------------------------------
/csrc/cache_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/cache_kernels.cu


--------------------------------------------------------------------------------
/csrc/cuda_compat.h:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/cuda_compat.h


--------------------------------------------------------------------------------
/csrc/cuda_utils.h:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/cuda_utils.h


--------------------------------------------------------------------------------
/csrc/cuda_utils_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/cuda_utils_kernels.cu


--------------------------------------------------------------------------------
/csrc/dispatch_utils.h:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/dispatch_utils.h


--------------------------------------------------------------------------------
/csrc/layernorm_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/layernorm_kernels.cu


--------------------------------------------------------------------------------
/csrc/ops.h:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/ops.h


--------------------------------------------------------------------------------
/csrc/pos_encoding_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/pos_encoding_kernels.cu


--------------------------------------------------------------------------------
/csrc/pybind.cpp:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/pybind.cpp


--------------------------------------------------------------------------------
/csrc/quantization/awq/dequantize.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/quantization/awq/dequantize.cuh


--------------------------------------------------------------------------------
/csrc/quantization/awq/gemm_kernels.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/quantization/awq/gemm_kernels.cu


--------------------------------------------------------------------------------
/csrc/quantization/squeezellm/quant_cuda_kernel.cu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/quantization/squeezellm/quant_cuda_kernel.cu


--------------------------------------------------------------------------------
/csrc/reduction_utils.cuh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/csrc/reduction_utils.cuh


--------------------------------------------------------------------------------
/docs/Makefile:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/Makefile


--------------------------------------------------------------------------------
/docs/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/README.md


--------------------------------------------------------------------------------
/docs/make.bat:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/make.bat


--------------------------------------------------------------------------------
/docs/requirements-docs.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/requirements-docs.txt


--------------------------------------------------------------------------------
/docs/source/assets/logos/vllm-logo-only-light.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/assets/logos/vllm-logo-only-light.png


--------------------------------------------------------------------------------
/docs/source/assets/logos/vllm-logo-text-dark.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/assets/logos/vllm-logo-text-dark.png


--------------------------------------------------------------------------------
/docs/source/assets/logos/vllm-logo-text-light.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/assets/logos/vllm-logo-text-light.png


--------------------------------------------------------------------------------
/docs/source/conf.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/conf.py


--------------------------------------------------------------------------------
/docs/source/getting_started/amd-installation.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/getting_started/amd-installation.rst


--------------------------------------------------------------------------------
/docs/source/getting_started/installation.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/getting_started/installation.rst


--------------------------------------------------------------------------------
/docs/source/getting_started/quickstart.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/getting_started/quickstart.rst


--------------------------------------------------------------------------------
/docs/source/index.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/index.rst


--------------------------------------------------------------------------------
/docs/source/models/adding_model.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/models/adding_model.rst


--------------------------------------------------------------------------------
/docs/source/models/engine_args.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/models/engine_args.rst


--------------------------------------------------------------------------------
/docs/source/models/supported_models.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/models/supported_models.rst


--------------------------------------------------------------------------------
/docs/source/quantization/auto_awq.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/quantization/auto_awq.rst


--------------------------------------------------------------------------------
/docs/source/serving/deploying_with_docker.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/serving/deploying_with_docker.rst


--------------------------------------------------------------------------------
/docs/source/serving/deploying_with_triton.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/serving/deploying_with_triton.rst


--------------------------------------------------------------------------------
/docs/source/serving/distributed_serving.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/serving/distributed_serving.rst


--------------------------------------------------------------------------------
/docs/source/serving/metrics.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/serving/metrics.rst


--------------------------------------------------------------------------------
/docs/source/serving/run_on_sky.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/serving/run_on_sky.rst


--------------------------------------------------------------------------------
/docs/source/serving/serving_with_langchain.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/docs/source/serving/serving_with_langchain.rst


--------------------------------------------------------------------------------
/examples/api_client.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/api_client.py


--------------------------------------------------------------------------------
/examples/gradio_webserver.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/gradio_webserver.py


--------------------------------------------------------------------------------
/examples/llm_engine_example.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/llm_engine_example.py


--------------------------------------------------------------------------------
/examples/offline_inference.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/offline_inference.py


--------------------------------------------------------------------------------
/examples/openai_chatcompletion_client.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/openai_chatcompletion_client.py


--------------------------------------------------------------------------------
/examples/openai_completion_client.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/openai_completion_client.py


--------------------------------------------------------------------------------
/examples/template_alpaca.jinja:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/template_alpaca.jinja


--------------------------------------------------------------------------------
/examples/template_chatml.jinja:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/template_chatml.jinja


--------------------------------------------------------------------------------
/examples/template_inkbot.jinja:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/examples/template_inkbot.jinja


--------------------------------------------------------------------------------
/format.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/format.sh


--------------------------------------------------------------------------------
/mypy.ini:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/mypy.ini


--------------------------------------------------------------------------------
/patch_xformers-0.0.22.post7.rocm.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/patch_xformers-0.0.22.post7.rocm.sh


--------------------------------------------------------------------------------
/pyproject.toml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/pyproject.toml


--------------------------------------------------------------------------------
/requirements-build.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/requirements-build.txt


--------------------------------------------------------------------------------
/requirements-dev.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/requirements-dev.txt


--------------------------------------------------------------------------------
/requirements-rocm.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/requirements-rocm.txt


--------------------------------------------------------------------------------
/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/requirements.txt


--------------------------------------------------------------------------------
/rocm_patch/commonpy_xformers-0.0.22.post7.rocm.patch:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/rocm_patch/commonpy_xformers-0.0.22.post7.rocm.patch


--------------------------------------------------------------------------------
/rocm_patch/flashpy_xformers-0.0.22.post7.rocm.patch:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/rocm_patch/flashpy_xformers-0.0.22.post7.rocm.patch


--------------------------------------------------------------------------------
/setup.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/setup.py


--------------------------------------------------------------------------------
/tests/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/tests/async_engine/api_server_async_engine.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/async_engine/api_server_async_engine.py


--------------------------------------------------------------------------------
/tests/async_engine/test_api_server.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/async_engine/test_api_server.py


--------------------------------------------------------------------------------
/tests/async_engine/test_async_llm_engine.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/async_engine/test_async_llm_engine.py


--------------------------------------------------------------------------------
/tests/async_engine/test_openai_server.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/async_engine/test_openai_server.py


--------------------------------------------------------------------------------
/tests/async_engine/test_request_tracker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/async_engine/test_request_tracker.py


--------------------------------------------------------------------------------
/tests/conftest.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/conftest.py


--------------------------------------------------------------------------------
/tests/distributed/test_comm_ops.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/distributed/test_comm_ops.py


--------------------------------------------------------------------------------
/tests/engine/test_detokenize.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/engine/test_detokenize.py


--------------------------------------------------------------------------------
/tests/kernels/conftest.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/kernels/conftest.py


--------------------------------------------------------------------------------
/tests/kernels/test_activation.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/kernels/test_activation.py


--------------------------------------------------------------------------------
/tests/kernels/test_attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/kernels/test_attention.py


--------------------------------------------------------------------------------
/tests/kernels/test_cache.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/kernels/test_cache.py


--------------------------------------------------------------------------------
/tests/kernels/test_layernorm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/kernels/test_layernorm.py


--------------------------------------------------------------------------------
/tests/kernels/test_pos_encoding.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/kernels/test_pos_encoding.py


--------------------------------------------------------------------------------
/tests/models/test_models.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/models/test_models.py


--------------------------------------------------------------------------------
/tests/samplers/test_beam_search.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/samplers/test_beam_search.py


--------------------------------------------------------------------------------
/tests/samplers/test_logprobs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/samplers/test_logprobs.py


--------------------------------------------------------------------------------
/tests/samplers/test_sampler.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/samplers/test_sampler.py


--------------------------------------------------------------------------------
/tests/test_regression.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/test_regression.py


--------------------------------------------------------------------------------
/tests/worker/test_model_runner.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/tests/worker/test_model_runner.py


--------------------------------------------------------------------------------
/vllm/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/__init__.py


--------------------------------------------------------------------------------
/vllm/block.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/block.py


--------------------------------------------------------------------------------
/vllm/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/config.py


--------------------------------------------------------------------------------
/vllm/core/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/core/block_manager.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/core/block_manager.py


--------------------------------------------------------------------------------
/vllm/core/policy.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/core/policy.py


--------------------------------------------------------------------------------
/vllm/core/scheduler.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/core/scheduler.py


--------------------------------------------------------------------------------
/vllm/engine/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/engine/arg_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/engine/arg_utils.py


--------------------------------------------------------------------------------
/vllm/engine/async_llm_engine.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/engine/async_llm_engine.py


--------------------------------------------------------------------------------
/vllm/engine/llm_engine.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/engine/llm_engine.py


--------------------------------------------------------------------------------
/vllm/engine/metrics.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/engine/metrics.py


--------------------------------------------------------------------------------
/vllm/engine/ray_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/engine/ray_utils.py


--------------------------------------------------------------------------------
/vllm/entrypoints/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/entrypoints/api_server.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/entrypoints/api_server.py


--------------------------------------------------------------------------------
/vllm/entrypoints/llm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/entrypoints/llm.py


--------------------------------------------------------------------------------
/vllm/entrypoints/openai/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/entrypoints/openai/api_server.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/entrypoints/openai/api_server.py


--------------------------------------------------------------------------------
/vllm/entrypoints/openai/protocol.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/entrypoints/openai/protocol.py


--------------------------------------------------------------------------------
/vllm/logger.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/logger.py


--------------------------------------------------------------------------------
/vllm/model_executor/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/__init__.py


--------------------------------------------------------------------------------
/vllm/model_executor/input_metadata.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/input_metadata.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/model_executor/layers/activation.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/activation.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/attention.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/layernorm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/layernorm.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/linear.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/linear.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/quantization/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/quantization/__init__.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/quantization/awq.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/quantization/awq.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/quantization/base_config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/quantization/base_config.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/quantization/squeezellm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/quantization/squeezellm.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/rotary_embedding.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/rotary_embedding.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/sampler.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/sampler.py


--------------------------------------------------------------------------------
/vllm/model_executor/layers/vocab_parallel_embedding.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/layers/vocab_parallel_embedding.py


--------------------------------------------------------------------------------
/vllm/model_executor/model_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/model_loader.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/__init__.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/aquila.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/aquila.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/baichuan.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/baichuan.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/bloom.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/bloom.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/chatglm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/chatglm.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/falcon.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/falcon.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/gpt2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/gpt2.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/gpt_bigcode.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/gpt_bigcode.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/gpt_j.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/gpt_j.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/gpt_neox.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/gpt_neox.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/internlm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/internlm.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/llama.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/llama.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/mistral.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/mistral.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/mixtral.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/mixtral.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/mpt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/mpt.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/opt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/opt.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/phi_1_5.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/phi_1_5.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/qwen.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/qwen.py


--------------------------------------------------------------------------------
/vllm/model_executor/models/yi.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/models/yi.py


--------------------------------------------------------------------------------
/vllm/model_executor/parallel_utils/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/parallel_utils/README.md


--------------------------------------------------------------------------------
/vllm/model_executor/parallel_utils/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/model_executor/parallel_utils/communication_op.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/parallel_utils/communication_op.py


--------------------------------------------------------------------------------
/vllm/model_executor/parallel_utils/parallel_state.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/parallel_utils/parallel_state.py


--------------------------------------------------------------------------------
/vllm/model_executor/parallel_utils/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/parallel_utils/utils.py


--------------------------------------------------------------------------------
/vllm/model_executor/sampling_metadata.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/sampling_metadata.py


--------------------------------------------------------------------------------
/vllm/model_executor/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/utils.py


--------------------------------------------------------------------------------
/vllm/model_executor/weight_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/model_executor/weight_utils.py


--------------------------------------------------------------------------------
/vllm/outputs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/outputs.py


--------------------------------------------------------------------------------
/vllm/py.typed:
--------------------------------------------------------------------------------
1 | # Marker file for PEP 561.
2 | # The vllm package uses inline types.
3 | 


--------------------------------------------------------------------------------
/vllm/sampling_params.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/sampling_params.py


--------------------------------------------------------------------------------
/vllm/sequence.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/sequence.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/transformers_utils/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/config.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/__init__.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/aquila.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/aquila.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/baichuan.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/baichuan.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/chatglm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/chatglm.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/falcon.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/falcon.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/mpt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/mpt.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/qwen.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/qwen.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/configs/yi.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/configs/yi.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/tokenizer.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/tokenizers/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/tokenizers/__init__.py


--------------------------------------------------------------------------------
/vllm/transformers_utils/tokenizers/baichuan.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/transformers_utils/tokenizers/baichuan.py


--------------------------------------------------------------------------------
/vllm/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/utils.py


--------------------------------------------------------------------------------
/vllm/worker/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/vllm/worker/cache_engine.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/worker/cache_engine.py


--------------------------------------------------------------------------------
/vllm/worker/model_runner.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/worker/model_runner.py


--------------------------------------------------------------------------------
/vllm/worker/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/mistralai/vllm-release/HEAD/vllm/worker/worker.py


--------------------------------------------------------------------------------