文档
注册

模型简介

GLIP是MicroSoft 2021年发布的用于视觉定位的语言-图像预训练模型,可以学习对象级、语言感知和语义丰富的视觉表示。GLIP统一了预训练的对象检测和短语定位。统一框架带来了两个优点:允许GLIP从检测和定位数据中学习,以提高这两项任务的精度并得到一个优秀的定位模型;GLIP可以通过自训练的范式利用大量的图文对生成定位框,得到语义丰富的特征。实验证明,GLIP具有强大的零样本、少样本迁移能力。

GLIP由文本编码器、图像编码器和深度融合检测头模块组成。文本编码器是BERT结构,负责抽取文本prompt特征。图像编码器是Swin Transformer结构,负责提取图像特征。检测头是基于MicroSoft 2021年发布的Dynamic Head实现,同时包含文本编码模块和交叉注意力,负责将文本特征与图像特征进行深度融合。

本案例主要介绍如何将GLIP_for_PyTorch仓中COCO微调脚本迁移到昇腾芯片(NPU)上。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词