讲座回顾 | 刘奋荣:逻辑与神经学习的结合——神经-符号人工智能的新探索

发布时间:2026-04-14 10:45

作者:

来源:

浏览次数:

2026年4月7日晚,AWPL 2026 的本地学术讲座(天辅逻辑论坛2026年第2讲)在西南大学逻辑与智能研究中心如期举行。清华大学哲学系刘奋荣教授应邀作了题为“逻辑与神经学习的结合:神经-符号人工智能的新探索”的学术讲座,讲座围绕当前大语言模型在逻辑推理能力方面面临的主要挑战、近年来的研究进展及现有方法的分类分析展开,并介绍了提升大模型逻辑推理能力的最新研究成果,为在场师生呈现了一场兼具学术深度与实践价值的分享,也为逻辑的应用研究提供了清晰的思路指引。

首先,刘教授深入分析了大语言模型在逻辑推理方面的现状与局限。她指出,尽管大模型在自然语言处理各类任务中表现突出,但究其本质,其“下一个词预测”的核心机制依赖于语料库中的概率关联,而非真正意义上的逻辑演算,这也导致模型普遍存在“逻辑幻觉”问题——即能生成语法通顺、表达流畅的文本,但在多步推理、隐藏逻辑关系(如医疗场景下的药物冲突、复杂命题的演绎推导)中准确率极低。结合相关研究成果可知,当前大模型的逻辑推理能力仍存在显著短板,例如LLaMA-13B模型在FOLIO数据集上的8-shot提示下仅能达到33.63%的准确率,仅略高于随机猜测水平,充分说明预训练大模型即便借助上下文学习,也难以应对复杂逻辑推理任务。刘教授结合具体研究案例进一步说明,大模型在处理逻辑推理任务时,往往无法有效理解和整合多个复杂逻辑前提与规则,难以完成严谨的演绎、归纳或溯因推理,这也让在场师生深刻认识到提升大模型逻辑一致性与推理可靠性的紧迫性。

然后,讲座重点介绍了提升大模型推理能力的两个核心科研工作——自适应符号语言选择与阶段性微调框架,这也是刘奋荣教授团队的最新研究成果。前人研究致力于自然语言(NL)问题向符号语言(SL)转换的精度,但忽视了目标SL类型的选取,因此刘老师团队提出了一种方法,即通过在翻译前自适应选择最适合各问题的SL,从而提升大语言模型的逻辑推理能力。具体而言,通过大语言模型从一阶逻辑、逻辑编程和布尔可满足性中筛选目标SL表达式,随后将NL问题转为目标SL表达式,并调用相应的逻辑求解器推导最终答案。基准测试实验结果表明,此方法在混合基准数据集上达到了96.00%的准确率。

与此同时,刘教授还分享了基于命题逻辑难度的阶段性微调研究。该工作借鉴课程学习训练方式。团队首先定义了合理的逻辑QA难度衡量标准,通过分析样本的形式复杂度、前提数量、原子命题类型等指标,将训练样本划分为不同难度阶段,再对模型进行分阶段指令微调。对比实验表明,这种阶段性微调方式显著优于一次性微调及随机顺序微调,在多个基准数据集上均实现了性能提升,尤其在复杂多步推理任务中表现突出,有效弥补了传统微调方法忽视指令集内部复杂度、训练效率低下的短板。这两项工作共同展示了如何通过结构化方法和算法优化,为大模型逻辑推理能力的提升提供了可落地的技术路径。

最后,刘教授重点分享了当前大模型逻辑推理评测体系的现状及团队相关研究方向。她指出,现有逻辑推理评测基准存在明显弊端,许多基准容易被模型通过记忆语料、捕捉统计捷径等方式“蒙混过关”,无法真实反映模型的逻辑推理能力。刘教授结合现有研究补充说明,当前主流逻辑推理评测基准涵盖FOLIO、LogiQA2.0等,这些基准虽在一定程度上能衡量模型推理性能,但仍存在局限性,部分基准的样本设计易让模型找到统计规律,而非依赖严谨的逻辑演算。为此,其团队正致力于优化逻辑推理评测方法,参考现有基准的合理设计,同时聚焦命题逻辑、一阶逻辑等核心逻辑类型,设计更具挑战性的评测样本,从而更科学地度量大模型的真实逻辑推理水平,为后续大模型逻辑推理能力的提升提供精准的评估依据和研究指引。

讲座结尾,刘奋荣教授还与在场师生就大模型逻辑推理的未来研究方向进行了交流,提出未来需重点探索复杂条件推理、模态逻辑推理、高阶逻辑推理等领域。此次讲座不仅梳理了大模型逻辑推理领域的研究现状与核心方法,更分享了前沿科研成果与实践经验,启发了西南大学逻辑学、哲学等专业师生的研究思路,加强了学术交流与合作。



(邵欣悦/文字,熊作军/审核,彭子骄/发布)