fss 露出

宿舍 自慰 专握AI“看图说谎”,谷歌哥大用三类陷坑触发幻觉,打造可随时代发展动态演进的评估框架

发布日期:2025-03-30 12:33    点击次数:143

宿舍 自慰 专握AI“看图说谎”,谷歌哥大用三类陷坑触发幻觉,打造可随时代发展动态演进的评估框架

幻觉(Hallucination),即生成事实伪善或不一致的信息宿舍 自慰,已成为视觉 - 言语模子 ( VLMs)可靠性面对的中枢挑战。跟着 VLMs 在自动驾驶、医疗会诊等要道边界的平凡应用,幻觉问题因其潜在的要害后果而备受存眷。

然则,现时针对幻觉问题的掂量面对多重制约:图像数据集的有限性、短缺针对各样化幻觉触发要素的玄虚评估体系,以及在复杂视觉问答任务中进行怒放式评估的固有阻拦。

为冲突这些收尾,来自哥伦比亚大学和 Google DeepMind 的掂量团队提倡了一种创新的视觉问答数据集构建决议。

该决议通过整合信得过图像与合成生成图像,诈欺基于教导的图像生成时代,克服了传统数据集(如 MS-COCO 和 Flickr)在图像各样性和很是性方面的局限。这别称为 HaloQuest 的数据集采纳"机器 - 东谈主工"协同的数据生成经过,要点网罗了三类针对现时 VLM 模子固有缺陷的挑战性样本,旨在系统性地触发典型幻觉场景:

a. 基于伪善前提的指挥性问题;

b. 短缺充分高下文扶植的糊涂性问题;

c. 其他具有高度复杂性的疑难问题;

此外,HaloQuest 创新性地引入了基于大言语模子(LLM)的自动评估系统(AutoEval),杀青了怒放式、动态化的评估机制,并探索了合成图像在 VLM 评估中的创新性应用价值。传统评估智商频繁局限于多项聘任题或有限词汇的闭塞式回答,这种评估方式不仅收尾了模子展现复杂推理和渺小抒发才能,也难以准确评估模子在执行场景中的本色阐扬。

罕见是在处理生成式幻觉预计时,现存智商无法全面权衡模子生成连贯性、细节丰富度及高下文一致性等方面的才能。HaloQuest 提倡的 AutoEval 系统通过扶植对模子反映的细粒度、怒放式评估,缔造了一个可随时代发展动态演进的评估框架,为 VLMs 的可靠性评估提供了新的范式。

HaloQuest 先容

图 2 展示了 HaloQuest 数据集的构建经过,该经过通过整合信得过图像与合成图像,确保了数据集的丰富性和各样性。信得过图像选自 Open Images 数据集的立地样本,而合成图像则来源于 Midjourney 和 Stable Diffusion 在线画廊。为确保图像质地,筛选过程优先接头高浏览量和正面评价的图像,并联接全心操办的主题词列表进行搜索查询。

在东谈主类标注阶段,图像需餍足两个圭臬:既需具备真感性或专有性,又需易于交融。举例,展示心事场景、包含止境规物体组合(如图 2 所示的"一稔报纸的狗"),或具有视觉冲击力的图像被视为"酷爱"。同期,这些图像即使扞拒执行物理法例,也需保持视觉连贯性和明晰度,确保东谈主类或者交融其内容。

这一两重圭臬的操办,旨在均衡生成具有挑战性的场景与确保模子反映的可解释性,从而或者准确归因于模子在推理或交融上的特定弱势。

图像筛选完成后,东谈主类标注者与大言语模子配合,围绕图像操办问题和谜底,要点存眷创造性、渺小推理才能以及模子潜在偏见的检测。HaloQuest 包含三类旨在诱发幻觉的问题:

a. 伪善前发问题(False Premise Questions):这些问题包含与图像内容获胜矛盾的论说或假定,用于测试模子是否或者优先接头视觉笔据而非误导性言语痕迹。

b. 视觉挑战性问题(Visually Challenging Questions):这些问题条件模子深刻交融图像细节,举例物体计数、空间关系判断或被禁锢区域的推理,用于评估模子的复杂视觉分析才能。

巨乳 乳首

c. 信息不及问题(Insufficient Context Questions):这些问题无法仅凭图像内容得出明确谜底,寄明月 裸舞旨在探伤模子是否会依赖固有偏见或无根据的臆度,而非承认信息的局限性。

在问题创建过程中,东谈主类标注者为每张图像操办两个问题止境谜底。当先,他们需提倡一个对于图像中某个视觉元素的问题,但该问题无法仅通过图像内容回答。其次,标注者需提倡一个对于图像中奥密细节的问题,该问题需有明确且客不雅的谜底,幸免主不雅偏见的插手。

为提高效果,HaloQuest 还诈欺 LLMs(如 IdealGPT 框架,联接 GPT-4 和 BLIP2)自动生成图像刻画。这些刻画被拆分为多个原子论说(举例:"这是一只金毛猎犬的特写","狗的背上披着报纸")。东谈主类标注者评估每个论说的信得过性(是 / 否),随后 LLMs 基于这些评估收尾生成对应的问答对。

为进一步教育数据质地,HaloQuest 采纳筛选机制:当先,高性能 VQA 模子对启动问题池进行预回答;随后,老师丰富的东谈主类标注者审查问题及模子回答,确保问题的挑战性和谜底的明晰性。过于通俗的问题会被修改或丢弃,拖泥带水的谜底会被标志,以确保每个问题王人具有敷裕的难度和明确的解答。

通过这一严谨的经过,HaloQuest 构建了一个高质地、高挑战性的数据集,为 VLM 的评估提供了更可靠的基准。下图展示了 HaloQuest 的部分数据样本,并与其他数据集进行了对比,突显了其在各样性和复杂性方面的上风。

自动评估

为了大限度扶植解放样式和怒放式视觉 - 言语模子(VLM)幻觉评估宿舍 自慰,HaloQuest 征战了一种基于大言语模子(LLM)的自动评估智商。尽管原则上任何 LLM 只需基础教导即可实行此类评估,但 HaloQuest 提倡了一种更为高效和精确的评估框架。

具体而言,HaloQuest 引入了 Langfun 结构,该智商通过结构化教导操办,匡助 Gemini 模子准确索要模子反映与参考谜底的中枢内容,并判断二者之间的一致性。图 7 展示了用于杀青自动评估的 Gemini 教导词止境结构,而图 8 则提供了 Auto-Eval 评估的具体示例。

如图所示,Gemini 模子需要根据输入的问题、模子回答和参考谜底,填充 PredictionEvaluation 类的关联属性。通过 Langfun 结构,HaloQuest 不仅握住了 VLM 幻觉评估中的时代挑战,还为翌日更平凡的 AI 模子评估提供了创新念念路和实践老师。

实验与分析

掂量发现,现存视觉 - 言语模子(VLMs)在 HaloQuest 数据集上的阐扬不尽如东谈主意,幻觉率较高。这一收尾揭示了模子在交融和推理才能上的显赫不及,同期也突显了征战更端庄的幻觉缓解智商的遑急需求。

要道发现:

a. 模子限度与幻觉率的关系

掂量发现,更大的模子限度并不一定或者缩小幻觉率。出乎意想的是,较小的 BEiT-3 模子在多个任务上阐扬优于更大的模子。这一发现标明,单纯依赖模子推广并不可灵验握住幻觉问题,数据驱动的幻觉缓解政策可能更具后劲。

b. Auto-Eval 的可靠性

Auto-Eval 与东谈主工评估收尾具有较高的关联性。这一收尾标明,在东谈主工评估不可行或资本过高的情况下,Auto-Eval 不错行为一种可靠的替代决议,为大限度模子评估提供扶植。

c. 微调的灵验性

在 HaloQuest 上进行微调显赫缩小了 VLMs 的幻觉率,同期并未影响模子在其他基准测试上的阐扬。这评释了 HaloQuest 在教育模子安全性方面的后劲,且不会放松其举座灵验性。

d. 跨数据集的泛化才能

表 6 展示了各模子在 POPE 幻觉基准测试上的阐扬。收尾夸耀,经过 HaloQuest 锻真金不怕火的模子在新数据集上的阐扬也有所教育,进一步考证了 HaloQuest 或者匡助模子在新环境中幸免幻觉。

合成图像与信得过图像的对比

掂量还按照信得过图像和合成图像分散评估了模子的阐扬。尽管大深广模子在信得过图像上的幻觉率更高,但合成图像上的幻觉率仍然显赫。值得着重的是,合成图像在数据集构建中具有专有上风

低资本与可推广性:合成图像提供了一种经济高效的握住决议,有助于快速推广数据集限度。

缩小幻觉率:实验收尾标明,锻真金不怕火数据加入合成图像有助于缩小模子的幻觉率(见表 5 和表 7)。

时代特出的后劲:尽管现在合成图像的难度略低于信得过图像,但跟着图像生成时代的特出,这一差距有望缩小。

本色应用的要害性:跟着图像生成时代的平凡应用,确保模子在合成图像上具备抗幻觉才能将变得愈发要害。

幻觉成因与模子阐扬

掂量进一步分析了模子在 HaloQuest 三类问题上的阐扬:

伪善前发问题(False Premise Questions):开源模子在处理此类问题时阐扬较差,但 GPT-4 展现出一定上风。

信息不及问题(Insufficient Context Questions):模子深广阐扬欠安,标明其在处理糊涂信息时容易依赖偏见或无根据的臆度。

视觉挑战性问题(Visually Challenging Questions):模子阐扬略有教育,但 GPT-4 在此类任务上的阐扬不如其他模子。

这些发现为翌日掂量提供了新的看法,包括:

数据集优化:通过矫正数据集构建智商,进一步教育模子的抗幻觉才能。

受控图像生成:诈欺更先进的图像生成时代,创建更具挑战性的合成图像。

标注偏差缓解:减少数据标注过程中的偏差,提高数据集的各样性和公谈性。

针对性优化:针对不同模子的特定缺陷,征战定制化的幻觉缓解政策。

论断

HaloQuest 是一个创新的视觉问答基准数据集,通过整合信得过天下图像和合成图像,联吸收控的图像生成时代和针对特定幻觉类型操办的问题,为分析 VLMs 的幻觉触发要素提供了更精确的器具。实验收尾标明,现时泉源进的模子在 HaloQuest 上的阐扬深广欠安,清爽了其才能与本色应用需求之间的显赫差距。

在 HaloQuest 上进行微调的 VLMs 显赫缩小了幻觉率,同期保持了其在惯例推理任务上的性能,这评释了该数据集在教育模子安全性和可靠性方面的后劲。此外,掂量提倡了一种基于大言语模子(LLM)的 Auto-Eval 评估机制,或者对 VLMs 的回答进行怒放式、细粒度的评估。与传统智商比较,Auto-Eval 克服了收尾模子抒发才能或难以评估复杂幻觉的局限性,杀青了评估效果和准确性的显赫优化。

HaloQuest 不仅为 VLMs 的幻觉问题掂量提供了新的基准,还通过其创新的数据集构建智商和评估机制,为翌日多模态 AI 的发展指明了看法。跟着图像生成时代和评估智商的连续特出,HaloQuest 有望在鼓舞更安全、更可靠的视觉 - 言语模子掂量中阐扬要害作用。

一键三连「点赞」「转发」「防备心」

接待在指摘区留住你的想法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 形态主页消释,以及辩论方式哦

咱们会(尽量)实时恢复你

� � 点亮星标 � �

科技前沿进展逐日见宿舍 自慰





Powered by fss 露出 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024