多模态理解特性介绍

简介

多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型，多模态理解模型将文本、图像、音频或视频等至少两种模态的数据作为输入，从输入的多模态数据中提取特征并进行融合，从而使得多模态理解模型能够实现更全面、更准确的理解和推理能力。

限制与约束

Atlas 800I A2 推理产品和Atlas 300I Duo 推理卡硬件支持此特性。
模型特性矩阵及相关文档请参考《MindIE是什么》的“MindIE支持模型列表 > 多模态理解模型列表”章节

执行多模态理解模型推理

多模态理解类模型执行推理的方式与大语言模型略有不同，在执行推理时您可参考对应模型的readme进行推理。

以Qwen-VL为例，您可以使用以下指令执行对话测试，推理内容为"Generate the caption in English with grounding: "。在运行该脚本之前您需要修改该脚本内的变量model_path为Qwen-VL的本地权重文件路径，变量image_path为本地图片路径。

cd ${ATB_SPEED_HOME_PATH}
bash examples/models/qwen_vl/run_pa.sh

父主题： 特性介绍