近年来,视觉-语言模型(Vision-Language Models, VLMs)如 CLIP 的出现,彻底改变了图像理解的范式。其中,零样本分类作为 VLM 的核心优势之一,无需额外标注数据即可完成陌生类别的识别,极大降低了图像分类的成本与门槛,成为工业界与学术界关注的焦点。

然而,当前 VLM 零样本分类上仍存在一个亟待解决的问题:其分类性能对 Prompt 极其敏感,仅仅改变描述方式,例如:“a photo of a dog”,“a blurry image of a dog”,模型输出可能显著变化。为缓解这一问题,现有提示词(prompt)集成方案普遍采用全局共享权重设计,无视提示词与类别之间的语义适配差异,导致分类精度难以突破瓶颈,尤其在黑箱模型场景下。

近期,来自墨尔本大学可信赖机器学习与推理(TMLR)研究小组提出了类别感知提示词重加权 (Class-Aware Prompt Reweighting, CARPRT) 这一解决方案,该方案以 “无训练、黑箱适配、类别专属权重” 为核心,精准解决了当前 VLM 零样本分类中提示词语义适配不足的问题,并在多个细分类数据集上获得了分类性能的突破。目前该论文已被 ICLR 2026(国际学习表征会议)接收。



一、VLM 零样本分类的提示词的难解

VLMs 的零样本分类能力,本质上依赖于提示词(prompt)图像之间的语义对齐关系。通常,通过构造一组提示词模板(如 “a photo of {}”),并将类别嵌入自然语言描述中,从而引导模型在共享嵌入空间中匹配图像与文本特征,实现分类预测。

然而,提示词的选择对模型性能具有显著影响。不同提示词在语义上对不同类别的适配程度存在明显差异。 现有主流方法,如 MPE(Mean Prompt Ensembling)和 WPE(Weighted Prompt Ensembling),通常采用类别无关(class-agnostic)的权重设计,即所有类别共享同一组提示词权重,隐式假设提示词对不同类别具有一致的重要性。然而,这一假设在实际中往往并不成立。正如图 1 所示,不同类别对应的最优提示词权重分布存在显著差异,同时,当从类别无关的权重转为按类别分别计算权重时,多个类别的分类准确率均得到提升,这些现象表明提示词的有效性本质上具有类别依赖性



类别无关的权重设计带来了两方面局限:其一,从建模角度看,它隐含地假设所有提示词对不同类别具有一致的重要性,忽略了提示词与类别之间的语义差异,从而容易引入系统性的匹配偏差;其二,在实际应用中,提示词往往依赖人工构造或筛选,不仅成本较高,而且泛化能力有限,在跨数据集或新场景下容易失效。

与此同时,在黑箱 VLM 设置下(如闭源模型),由于无法访问模型参数或利用标注数据进行训练,研究者难以通过学习机制对提示词权重进行进一步优化,这也使得上述建模问题更加难以被修正,从而限制了零样本性能的进一步提升。为解决这一问题,研究团队提出了一种针对黑箱 VLMs 的,无需训练、纯推理阶段优化的提示词加权方案 ——CARPRT。

二、 类别感知创新思路

从设计理念来看,CARPRT 的核心逻辑源于对 “提示词语义适配性” 的深刻洞察:研究团队发现,在零样本分类任务中,提示词与类别的语义关联强度并非固定不变,而是存在显著的类别差异性 —— 有些提示词对某些类别具有极强的语义指向性,而对其他类别则几乎无关联。例如,“a photo of {}, a type of pet.” 更适合描述 cat,而 “a photo of {}, a type of fruit.” 则更适用于 apple。 若采用全局权重,往往会引入语义错配,降低分类精度。而 CARPRT 通过为每个类别定制专属提示词权重,可最大化发挥高适配提示词的作用,抑制低适配提示词的干扰,从而实现分类精度的提升。

直觉之外,CARPRT 进一步从概率建模角度解释了其合理性。 研究团队将 VLM 零样本分类任务形式化为条件概率估计问题,构建了完整的概率框架:



该公式将标签预测概率分解为权重空间上的积分,清晰揭示了提示词重加权对分类过程的核心影响。基于贝叶斯定理,团队进一步推导了权重的后验分布:

并通过伪标签策略解决了无标注场景下的类别先验估计问题,证明了随着数据量增长,伪标签统计分布将以指数级速度收敛到真实分布:



在此基础上,团队引入能量基模型(EBM)建模类条件似然,推导得出关键结论:类别专属权重会直接影响不同类别的似然性,全局共享权重会人为限制模型的表达能力。



最终,研究团队从数学层面证实:类别无关的权重设计(如 WPE)是类别感知的权重的严格子集,其表达能力存在天然短板,而 CARPRT 的类别专属权重设计,能够捕捉更丰富的图文关联,从根本上提升零样本分类性能。



与现有方案相比,CARPRT 的优势十分突出:首先,它无需任何训练过程,也无需更新模型参数,完全在推理阶段完成权重优化;其次,它仅依赖黑箱 VLM 输出的相似度分数即可完成权重估计,无需访问模型内部结构;最后,它具备极强的通用性,如 Fig. X 所示,可作为即插即用模块,无缝提升多种 VLM 适配方法的性能。

三、无训练的两步工作流程

尽管 CARPRT 在建模层面引入了 “类别感知” 的新视角,但其实现过程却非常简洁。整体方法可以概括为两个核心阶段。



阶段一:相关性分数计算(Score Calculation)

首先,使用目标 VLM,对所有图像、提示词与类别组合进行前向计算,得到三者之间的相似度分数:

图像 × Prompt × 类别 → similarity score

这一步的核心在于构建一个完整的语义关联空间,为后续权重估计提供基础。整个过程仅依赖模型的推理接口,无需访问参数或进行任何修改。提示词集合也可直接采用通用模板(如 “a photo of a [class]”),无需额外设计。

阶段二:类别感知权重估计(Weight Calculation)

在获得相似度分数后,CARPRT 从类别视角重新建模提示词的作用。具体而言,方法首先利用相似度分数为无标注图像生成伪标签,即为每个(图像,提示词)组合选择得分最高的类别作为预测结果。在此基础上,对所有伪标签进行聚合,针对每一个类别统计不同提示词下的平均相似度,并进行归一化,从而得到该类别对应的提示词权重分布。这一过程可以理解为:通过数据统计,自动识别 “哪些提示词更适合描述某一类别”,从而实现对提示词作用的类别感知建模。整个过程完全无监督,无需人工干预。

在推理阶段,CARPRT 将上述类别专属权重引入标准零样本分类流程,对不同提示词的预测结果进行加权融合,并根据融合后的分数确定最终类别。由于仅增加了一个权重计算与融合步骤,不会带来额外计算开销,也不会影响整体推理效率。

从整体流程可以看出,CARPRT 的核心优势在于 “极简” 与 “通用”:无需训练、无需参数更新、无需额外数据,仅依赖 VLM 输出的相似度分数,即可完成权重优化。这种 “即插即用” 的设计,使其能够同时适配开源与闭源视觉语言模型。

四、性能全面领先同类方案

在提出类别感知提示词重加权(CARPRT)之后,一个自然的问题是:在完全不训练的前提下,这种方法是否真的有效?

为此,研究团队在多个标准零样本分类基准上进行了系统评估,涵盖从通用识别到细粒度分类的多种任务,并在不同视觉语言模型架构上进行了验证。



实验结果表明,CARPRT 在几乎所有数据集上均优于现有主流方法,包括:MPE(Mean Prompt Ensembling),多数投票 (Majority Vote), WPE(加权提示词方法)。无论是在 CLIP(ViT-B/16、ResNet50)还是 DeCLIP 等不同模型架构下,CARPRT 都能够带来稳定且一致的性能提升。这说明:其收益并非依赖特定模型,而是来自更合理的建模方式。



为了进一步验证方法的关键因素,研究团队设计了一个重要对照实验:将 CARPRT 得到的类别专属权重进行平均,转化为 “全局权重”(CARPRT-Uniform)作为 Prompt 权重。实验结果显示:相比于类别专属权重,全局权重的性能显著下降。这说明:真正带来提升的,并不是 “更好的权重估计”,而是 “类别感知”本身。

综合所有实验,可以得到一个结论:在零样本 VLM 中,CARPRT 带来的性能提升并不一定来自更复杂的模型,而可能来自更合理的建模方式。CARPRT 并未引入新的网络结构,也未使用额外数据或训练过程,但仅通过重新建模提示词与类别的关系,就实现了稳定提升。

除了在零样本分类任务中的显著优势,CARPRT 的 “即插即用” 特性还使其具备极强的泛化能力。由于其仅依赖视觉语言模型输出的相似度分数,而不涉及模型结构修改或参数更新,CARPRT 可以作为一个独立模块,无缝嵌入到多种 VLM 应用流程中。

具体而言,无论是在基于提示词集成的零样本分类、测试时自适应(test-time adaptation),还是与提示词学习(prompt tuning)或数据增强方法结合的场景中,CARPRT 都可以作为一个前置或后处理步骤,对提示词进行类别感知的权重调整,从而进一步提升整体性能。这种模块化设计,使其不仅能够独立使用,也可以与现有方法形成互补,而非替代关系。

五、当模型无法改变时,

我们还能做什么?

在视觉语言模型不断走向规模化与黑箱化的今天,越来越多的应用场景面临一个现实约束: 模型本身难以修改,但任务需求却在不断变化。 CARPRT 给出的答案并不复杂:与其尝试通过训练改变模型,不如重新审视模型已有的输出方式,并在此基础上进行更合理的建模。

本文的核心发现是,提示词的作用并非全局一致,而是与类别语义紧密相关。通过引入类别感知的建模方式,即使在完全无训练、仅依赖推理结果的条件下,也能够稳定提升零样本分类性能。从这个角度来看,CARPRT 所体现的,并不仅是一个具体方法,而是一种更一般的思路:在黑箱条件下,通过结构化地重组模型已有信息,实现对模型行为的有效调控。

这一思路或许提示我们,在大模型时代,性能提升并不总是依赖更大的模型或更多的数据,有时也来自对问题本身更精细的建模。