大模型图模式推理案例

样例名称	样例获取	样例介绍
LLaMA2模型以图模式进行Deepspeed分布式推理样例	访问TorchAir仓中npu_tuned_model/llm/llama目录，阅读README.md了解详情。	该样例介绍了LLaMA2模型迁移、优化、执行过程，详细阐述了各种模型优化方法，如固定KV Cache大小、QKV融合、小算子替换为融合算子等方法。优化后的模型，可供开发者直接进行应用开发，也可为自定义的大模型进行NPU迁移提供参考。
LLaMA2模型分离部署迁移样例	访问TorchAir仓中npu_tuned_model/llm/llama/benchmark/pd_separate目录，阅读README.md了解详情。	该样例介绍了LLaMA2模型脚本如何迁移为可以全量和增量分离部署的过程，详细阐述了脚本改造过程，包括如何修改脚本保证一次调用只会推理一次、如何拆分为全量/增量执行脚本、如何调整预处理/后处理代码等。全量和增量模型分离部署后，可以减少计算资源的浪费，还可以提升模型在单位时间内处理用户请求的数量，即模型吞吐量。

样例名称

样例获取

样例介绍

LLaMA2模型以图模式进行Deepspeed分布式推理样例

访问TorchAir仓中npu_tuned_model/llm/llama目录，阅读README.md了解详情。

该样例介绍了LLaMA2模型迁移、优化、执行过程，详细阐述了各种模型优化方法，如固定KV Cache大小、QKV融合、小算子替换为融合算子等方法。

优化后的模型，可供开发者直接进行应用开发，也可为自定义的大模型进行NPU迁移提供参考。

LLaMA2模型分离部署迁移样例

访问TorchAir仓中npu_tuned_model/llm/llama/benchmark/pd_separate目录，阅读README.md了解详情。

该样例介绍了LLaMA2模型脚本如何迁移为可以全量和增量分离部署的过程，详细阐述了脚本改造过程，包括如何修改脚本保证一次调用只会推理一次、如何拆分为全量/增量执行脚本、如何调整预处理/后处理代码等。

全量和增量模型分离部署后，可以减少计算资源的浪费，还可以提升模型在单位时间内处理用户请求的数量，即模型吞吐量。