科研快讯丨告别大模型“一本正经说胡话”!中大软工DrHall系统为AI回答做“真实性体检”
● 论文标题:Detecting and Reducing the Factual Hallucinations of Large Language Models with Metamorphic Testing
● 作者单位:beat365唯一官方网站beat365唯一官方网站
● 关键词:大语言模型、幻觉检测、蜕变测试、可信人工智能
在人工智能领域,大语言模型(LLM)的“幻觉问题”一直是行业痛点——它生成的回答有时看似逻辑通顺,实则偏离事实,如同“一本正经地说胡话”。这种缺陷严重制约了LLM在医疗、金融、法律等高可靠性场景的应用。

beat365唯一官方网站beat365唯一官方网站最新研发的DrHall系统,为大模型量身定制了一套“真实性体检方案”。它创新性地采用蜕变测试(Metamorphic Testing)技术,通过动态改变问题路径,构建多维验证框架,精准捕捉模型回答中的矛盾点,让“AI幻觉”无所遁形!
DrHall通过精心设计的六项基础蜕变规则(MR)和三项复合规则(CMR),将源问题转化为执行路径各异的“问题变体”(如多语言转换、推理链注入、外部知识融合等)。该系统的智能检测机制,有效解决了大模型的"事实性幻觉"问题,为金融、医疗、法律等高可靠性领域的AI应用建立了质量保障体系。下面我们将深入解析DrHall系统的技术细节。

方法论阐述
DrHall系统基于蜕变测试(Metamorphic Testing)理论框架,以问题路径扰动技术为核心,通过动态验证回答一致性,不仅能高效识别大模型的事实性幻觉,还能精准追踪幻觉在知识理解、推理链条中的传播路径。

DrHall采用双模块协同设计:
(1)蜕变测试幻觉检测模块:将源问题蜕变为后续问题,并验证模型生成的源回答与后续回答是否符合预期的蜕变关系,来检测大语言模型的事实性幻觉。
(2)多路径投票幻觉纠正模块:基于复合蜕变规则构建多维验证网络,通过多数投票或语义聚类聚合实现自纠正。

具体而言,在幻觉检测阶段,系统首先将源问题通过六类基础蜕变关系转化为后续问题,包括基于源问题的蜕变关系QMR和基于源回答的蜕变关系AMR。
这些蜕变关系针对大语言模型的三项核心能力设计:
(1)问题理解能力(如通过优化表达结构测试语义敏感性)。
(2)知识召回能力(如注入维基百科证据强化上下文约束)。
(3)知识推理能力(如添加思维链提示强制分步推导)。
系统进一步构建三类复合蜕变规则(CMR),通过规则叠加(如CMR3融合多语言翻译+外部知识+思维链)最大化验证强度。

在回答一致性验证环节,系统采用分层判定机制:
(1)对自然语言回答:压缩至核心陈述后(如提示"用一句话回答"),通过BERT嵌入向量余弦相似度(阈值0.85)或语言模型自判(如GPT-3.5输出"是否一致")量化偏差;
(2)对编程任务:执行统一测试用例比对输出结果。当检测到显著不一致性(如自然语言相似度低于阈值或代码输出差异超容差),即判定为事实性幻觉。
针对检测到的幻觉,系统启动多路径纠正机制。该机制基于"非幻觉回答具有路径稳定性"的核心假设,通过五组错误纠正蜕变关系(ECMRs)触发多样化响应。例如,ECMR5采用四阶复合路径:从维基百科构建证据池采样四组知识片段,生成包含原始问题及三种语义重构变体的问题池,随机组合后添加思维链指令并翻译为四种语言,最终形成多维验证网络。
实验与分析概述
为全面验证DrHall系统的有效性,研究团队设计了自然语言问答与编程任务双场景测试。为避免主流数据集泄露导致的评测偏差,团队基于维基百科最新事实构建多学科FactHalluQA数据集(803题覆盖物理、化学、生物等7大学科),通过双重人工校验确保事实准确性(争议率<0.8%)。

在GPT-3.5-turbo、Llama-3.1-8B、GPT-4o等模型上的测试显示:
(1)自然语言任务:CMR3在FactHalluQA数据集上取得832精度、0.840召回率。
(2)编程任务:CMR3对Refactory程序修复任务实现0.821 F1值,LeetCode代码生成任务达0.910 F1值。
(3)纠正效果:ECMR5将自然语言任务纠正率提升至60%,程序修复任务达62%。
应用前景
DrHall系统为大模型在高可靠性领域的应用落地提供了关键的质量保障手段。其基于蜕变测试技术的检测方法,无需访问模型内部结构即可有效识别幻觉,具备良好的通用性和部署便利性。为大模型在金融领域、医疗健康、法律服务等关键场景的应用拓展了可能性。
该技术的成熟与推广,有望促进学术界与产业界的深入合作,共同推动大模型在高可靠性应用场景中的规范化、安全化发展,释放其更大的社会与经济价值。
● 联系人:吴老师
● 联系方式:wuwb36@mail.sysu.edu.cn