无需训练，如何提升黑箱VLM？CARPRT用「类别感知」给出答案,黑箱方法是什么意思

近年来，视觉-语言模型（Vision-Language Models, VLMs）如 CLIP 的出现，彻底改变了图像理解的范式。其中，零样本分类作为 VLM 的核心优势之一，无需额外标注数据即可完成陌生类别的识别，极大降低了图像分类的成本与门槛，成为工业界与学术界关注的焦点。

然而，当前 VLM 零样本分类上仍存在一个亟待解决的问题：其分类性能对 Prompt 极其敏感，仅仅改变描述方式，例如：“a photo of a dog”，“a blurry image of a dog”，模型输出可能显著变化。为缓解这一问题，现有提示词（prompt）集成方案普遍采用全局共享权重设计，无视提示词与类别之间的语义适配差异，导致分类精度难以突破瓶颈，尤其在黑箱模型场景下。

近期，来自墨尔本大学可信赖机器学习与推理（TMLR）研究小组提出了类别感知提示词重加权 (Class-Aware Prompt Reweighting, CARPRT) 这一解决方案，该方案以 “无训练、黑箱适配、类别专属权重” 为核心，精准解决了当前 VLM 零样本分类中提示词语义适配不足的问题，并在多个细分类数据集上获得了分类性能的突破。目前该论文已被 ICLR 2026（国际学习表征会议）接收。

论文标题：CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Black-Box Vision-Language Models Paper: https://openreview.net/pdf?id=AScQDQqVXY GitHub: https://github.com/tmlr-group/CARPRT

一、VLM 零样本分类的提示词的难解

VLMs 的零样本分类能力，本质上依赖于提示词（prompt）、图像之间的语义对齐关系。通常，通过构造一组提示词模板（如 “a photo of {}”），并将类别嵌入自然语言描述中，从而引导模型在共享嵌入空间中匹配图像与文本特征，实现分类预测。

然而，提示词的选择对模型性能具有显著影响。不同提示词在语义上对不同类别的适配程度存在明显差异。现有主流方法，如 MPE（Mean Prompt Ensembling）和 WPE（Weighted Prompt Ensembling），通常采用类别无关（class-agnostic）的权重设计，即所有类别共享同一组提示词权重，隐式假设提示词对不同类别具有一致的重要性。然而，这一假设在实际中往往并不成立。正如图 1 所示，不同类别对应的最优提示词权重分布存在显著差异，同时，当从类别无关的权重转为按类别分别计算权重时，多个类别的分类准确率均得到提升，这些现象表明提示词的有效性本质上具有类别依赖性。

类别无关的权重设计带来了两方面局限：其一，从建模角度看，它隐含地假设所有提示词对不同类别具有一致的重要性，忽略了提示词与类别之间的语义差异，从而容易引入系统性的匹配偏差；其二，在实际应用中，提示词往往依赖人工构造或筛选，不仅成本较高，而且泛化能力有限，在跨数据集或新场景下容易失效。

与此同时，在黑箱 VLM 设置下（如闭源模型），由于无法访问模型参数或利用标注数据进行训练，研究者难以通过学习机制对提示词权重进行进一步优化，这也使得上述建模问题更加难以被修正，从而限制了零样本性能的进一步提升。为解决这一问题，研究团队提出了一种针对黑箱 VLMs 的，无需训练、纯推理阶段优化的提示词加权方案 ——CARPRT。

二、类别感知创新思路

从设计理念来看，CARPRT 的核心逻辑源于对 “提示词语义适配性” 的深刻洞察：研究团队发现，在零样本分类任务中，提示词与类别的语义关联强度并非固定不变，而是存在显著的类别差异性 —— 有些提示词对某些类别具有极强的语义指向性，而对其他类别则几乎无关联。例如，“a photo of {}, a type of pet.” 更适合描述 cat，而 “a photo of {}, a type of fruit.” 则更适用于 apple。若采用全局权重，往往会引入语义错配，降低分类精度。而 CARPRT 通过为每个类别定制专属提示词权重，可最大化发挥高适配提示词的作用，抑制低适配提示词的干扰，从而实现分类精度的提升。

直觉之外，CARPRT 进一步从概率建模角度解释了其合理性。研究团队将 VLM 零样本分类任务形式化为条件概率估计问题，构建了完整的概率框架：

该公式将标签预测概率分解为权重空间上的积分，清晰揭示了提示词重加权对分类过程的核心影响。基于贝叶斯定理，团队进一步推导了权重的后验分布：

并通过伪标签策略解决了无标注场景下的类别先验估计问题，证明了随着数据量增长，伪标签统计分布将以指数级速度收敛到真实分布：

在此基础上，团队引入能量基模型（EBM）建模类条件似然，推导得出关键结论：类别专属权重会直接影响不同类别的似然性，全局共享权重会人为限制模型的表达能力。

最终，研究团队从数学层面证实：类别无关的权重设计（如 WPE）是类别感知的权重的严格子集，其表达能力存在天然短板，而 CARPRT 的类别专属权重设计，能够捕捉更丰富的图文关联，从根本上提升零样本分类性能。

与现有方案相比，CARPRT 的优势十分突出：首先，它无需任何训练过程，也无需更新模型参数，完全在推理阶段完成权重优化；其次，它仅依赖黑箱 VLM 输出的相似度分数即可完成权重估计，无需访问模型内部结构；最后，它具备极强的通用性，如 Fig. X 所示，可作为即插即用模块，无缝提升多种 VLM 适配方法的性能。

三、无训练的两步工作流程

尽管 CARPRT 在建模层面引入了 “类别感知” 的新视角，但其实现过程却非常简洁。整体方法可以概括为两个核心阶段。

阶段一：相关性分数计算（Score Calculation）

首先，使用目标 VLM，对所有图像、提示词与类别组合进行前向计算，得到三者之间的相似度分数：

图像 × Prompt × 类别 → similarity score

这一步的核心在于构建一个完整的语义关联空间，为后续权重估计提供基础。整个过程仅依赖模型的推理接口，无需访问参数或进行任何修改。提示词集合也可直接采用通用模板（如 “a photo of a [class]”），无需额外设计。

阶段二：类别感知权重估计（Weight Calculation）

在获得相似度分数后，CARPRT 从类别视角重新建模提示词的作用。具体而言，方法首先利用相似度分数为无标注图像生成伪标签，即为每个（图像，提示词）组合选择得分最高的类别作为预测结果。在此基础上，对所有伪标签进行聚合，针对每一个类别统计不同提示词下的平均相似度，并进行归一化，从而得到该类别对应的提示词权重分布。这一过程可以理解为：通过数据统计，自动识别 “哪些提示词更适合描述某一类别”，从而实现对提示词作用的类别感知建模。整个过程完全无监督，无需人工干预。

在推理阶段，CARPRT 将上述类别专属权重引入标准零样本分类流程，对不同提示词的预测结果进行加权融合，并根据融合后的分数确定最终类别。由于仅增加了一个权重计算与融合步骤，不会带来额外计算开销，也不会影响整体推理效率。

从整体流程可以看出，CARPRT 的核心优势在于 “极简” 与 “通用”：无需训练、无需参数更新、无需额外数据，仅依赖 VLM 输出的相似度分数，即可完成权重优化。这种 “即插即用” 的设计，使其能够同时适配开源与闭源视觉语言模型。

四、性能全面领先同类方案

在提出类别感知提示词重加权（CARPRT）之后，一个自然的问题是：在完全不训练的前提下，这种方法是否真的有效？

为此，研究团队在多个标准零样本分类基准上进行了系统评估，涵盖从通用识别到细粒度分类的多种任务，并在不同视觉语言模型架构上进行了验证。

实验结果表明，CARPRT 在几乎所有数据集上均优于现有主流方法，包括：MPE（Mean Prompt Ensembling），多数投票 (Majority Vote), WPE（加权提示词方法）。无论是在 CLIP（ViT-B/16、ResNet50）还是 DeCLIP 等不同模型架构下，CARPRT 都能够带来稳定且一致的性能提升。这说明：其收益并非依赖特定模型，而是来自更合理的建模方式。

为了进一步验证方法的关键因素，研究团队设计了一个重要对照实验：将 CARPRT 得到的类别专属权重进行平均，转化为 “全局权重”（CARPRT-Uniform）作为 Prompt 权重。实验结果显示：相比于类别专属权重，全局权重的性能显著下降。这说明：真正带来提升的，并不是 “更好的权重估计”，而是 “类别感知”本身。

综合所有实验，可以得到一个结论：在零样本 VLM 中，CARPRT 带来的性能提升并不一定来自更复杂的模型，而可能来自更合理的建模方式。CARPRT 并未引入新的网络结构，也未使用额外数据或训练过程，但仅通过重新建模提示词与类别的关系，就实现了稳定提升。

除了在零样本分类任务中的显著优势，CARPRT 的 “即插即用” 特性还使其具备极强的泛化能力。由于其仅依赖视觉语言模型输出的相似度分数，而不涉及模型结构修改或参数更新，CARPRT 可以作为一个独立模块，无缝嵌入到多种 VLM 应用流程中。

具体而言，无论是在基于提示词集成的零样本分类、测试时自适应（test-time adaptation），还是与提示词学习（prompt tuning）或数据增强方法结合的场景中，CARPRT 都可以作为一个前置或后处理步骤，对提示词进行类别感知的权重调整，从而进一步提升整体性能。这种模块化设计，使其不仅能够独立使用，也可以与现有方法形成互补，而非替代关系。

五、当模型无法改变时，

我们还能做什么？

在视觉语言模型不断走向规模化与黑箱化的今天，越来越多的应用场景面临一个现实约束：模型本身难以修改，但任务需求却在不断变化。 CARPRT 给出的答案并不复杂：与其尝试通过训练改变模型，不如重新审视模型已有的输出方式，并在此基础上进行更合理的建模。

本文的核心发现是，提示词的作用并非全局一致，而是与类别语义紧密相关。通过引入类别感知的建模方式，即使在完全无训练、仅依赖推理结果的条件下，也能够稳定提升零样本分类性能。从这个角度来看，CARPRT 所体现的，并不仅是一个具体方法，而是一种更一般的思路：在黑箱条件下，通过结构化地重组模型已有信息，实现对模型行为的有效调控。

这一思路或许提示我们，在大模型时代，性能提升并不总是依赖更大的模型或更多的数据，有时也来自对问题本身更精细的建模。