2026年4月6日晚,AWPL 2026本地学术讲座暨“天辅逻辑论坛”2026年第2讲在西南大学逻辑与智能研究中心举行。清华大学哲学系刘奋荣教授应邀作了题为“逻辑与神经学习的结合:神经—符号人工智能的新探索”的学术讲座。讲座围绕当前大语言模型在逻辑推理能力方面面临的主要挑战展开,系统梳理了近年来相关研究进展。在此基础上,刘奋荣教授介绍了其团队在提升大模型逻辑推理能力方面取得的最新研究成果。本次讲座内容兼具学术深度与现实意义,不仅为在场师生带来了一场高水平的学术分享,也为逻辑与人工智能交叉领域的前沿探索提供了清晰的研究视角。

首先,刘教授深入分析了当前大语言模型在逻辑推理方面的发展现状及其内在局限。她指出,尽管大模型在各类自然语言处理任务中表现出色,但从根本上看,其“下一个词预测”的生成机制主要依赖于大规模语料中的概率关联,而非严格意义上的逻辑演绎。正因如此,模型往往会出现“幻觉”现象,即虽然能够生成语法通顺、表达流畅的文本,却在复杂推理任务中表现出较低的准确性。结合具体研究案例,刘教授进一步说明,大语言模型在面对逻辑推理任务时,常常难以有效理解和整合多个复杂前提及其规则关系,因此难以完成严格而可靠的逻辑推演。相关分析使在场师生更加深刻地认识到,提升大模型的逻辑一致性与推理可靠性,已成为当前人工智能研究中亟待突破的重要问题。
其次,刘教授重点介绍了其团队在提升大模型推理能力方面开展的两项核心研究工作,即“自适应符号语言选择”与“阶段性微调框架”。这两项工作体现了团队在神经—符号人工智能方向上的最新探索。
在介绍“自适应符号语言选择”时,刘教授指出,既有研究主要关注如何提高自然语言(NL)向符号语言(SL)转换的准确性,但往往忽视了目标符号语言类型本身的选择问题。针对这一不足,其团队提出了一种新的方法:在翻译之前,先为具体问题自适应地选择最合适的符号语言,以进一步提升大语言模型的逻辑推理能力。具体而言,该方法借助大语言模型在一阶逻辑、逻辑编程和布尔可满足性三类符号语言中筛选最适合目标问题的表达形式,随后再将自然语言问题转换为相应的符号表达,并调用对应的逻辑求解器推导最终答案。基准测试结果表明,该方法在混合基准数据集上取得了96.00%的准确率,显示出较强的推理性能和应用潜力。
与此同时,刘教授还介绍了其团队基于逻辑难度设计的阶段性微调研究。该研究借鉴课程学习的训练思路,首先构建了较为合理的逻辑问答任务难度衡量标准,并综合考察样本的形式复杂度、前提数量以及原子命题类型等因素,将训练数据划分为不同难度阶段,进而对模型开展分阶段指令微调。对比实验结果表明,这种阶段性微调方法明显优于一次性微调和随机顺序微调,在多个基准数据集上均取得了更好的效果,尤其在复杂多步推理任务中优势更为突出。
这两项研究工作从不同角度展示了通过结构化方法与算法优化提升大模型逻辑推理能力的可行路径,也为神经—符号人工智能的进一步发展提供了具有操作性的技术方案。
最后,刘教授重点介绍了当前大模型逻辑推理评测体系的现状,以及其团队在相关方向上的最新探索。她指出,现有逻辑推理评测基准仍存在较为明显的局限:不少基准容易被模型通过记忆训练语料、捕捉统计捷径等方式“蒙混过关”,因而难以真实反映模型的逻辑推理能力。针对这一问题,刘教授介绍了其团队围绕逻辑推理评测开展的研究工作。该研究聚焦于逻辑推理规则以及公式之间的蕴涵、矛盾等关系,通过构造逻辑图并随机生成评测样本,提出了新的评测基准 LogiConBench。该评测基准旨在更科学地衡量大模型的真实逻辑推理水平,从而为后续提升大模型逻辑推理能力提供更加精准的评估依据和研究指引。
讲座最后,刘奋荣教授还与在场师生就大模型逻辑推理的未来研究方向进行了深入交流。她指出,未来值得重点探索的方向包括复杂条件推理、模态逻辑推理以及高阶逻辑推理等领域。此次讲座系统梳理了大模型逻辑推理研究的现状、主要方法与关键问题,分享了相关前沿成果与实践经验,启发了西南大学逻辑学、哲学等专业师生的研究思路,加强了学术交流与合作。
(邵欣悦/文字,熊作军/审核,彭子骄/发布)