下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

大模型图模式推理案例

样例须知

  • 面向熟悉Transformer模型结构的用户,比如了解注意力机制、Deepspeed分布式计算等,以便更好地进行大模型优化和执行。
  • 面向推理服务场景。
  • Atlas A2训练系列产品/Atlas 800I A2推理产品

样例获取

样例名称

样例获取

样例介绍

LLaMA2模型以图模式进行Deepspeed分布式推理样例

访问TorchAir仓中npu_tuned_model/llm/llama目录,阅读README.md了解详情。

该样例介绍了LLaMA2模型迁移、优化、执行过程,详细阐述了各种模型优化方法,如固定KV Cache大小、QKV融合、小算子替换为融合算子等方法。

优化后的模型,可供开发者直接进行应用开发,也可为自定义的大模型进行NPU迁移提供参考。

LLaMA2模型分离部署迁移样例

访问TorchAir仓中npu_tuned_model/llm/llama/benchmark/pd_separate目录,阅读README.md了解详情。

该样例介绍了LLaMA2模型脚本如何迁移为可以全量和增量分离部署的过程,详细阐述了脚本改造过程,包括如何修改脚本保证一次调用只会推理一次、如何拆分为全量/增量执行脚本、如何调整预处理/后处理代码等。

全量和增量模型分离部署后,可以减少计算资源的浪费,还可以提升模型在单位时间内处理用户请求的数量,即模型吞吐量。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词