日期:2025-07-11 浏览:

最近,蚂蚁小组的知识团队与智格大学和汤吉大学合作,正式在结构化推理领域(KAG -INCHINKER模型)正式发布其最新成就。该模型是对KAG框架的重要重复和升级,重点是开发稳定且解释性的范式,以考虑认识一般或专业领域的复杂任务。自2025年以来,Openai发起的深入研究表明,大型模型的强大技能,以搜索和计划认识复杂识别任务的许多扭曲。随后,在行业和学术界出现了许多以模型为中心的方法,例如搜索R1,研究等。但是,这种基于语言的自然方法就像让模型“自由播放”,以及诸如不当推理和不稳定过程之类的问题仍然是众所周知的。当人类专家解决复杂的问题时,他们经常使用有组织的思维方法来打破原始问题独立证明的小问题并解决了问题。受到这一点的启发,研究团队建议Kag-Beforeker为模型的思维过程建立一个清晰的分层“脚手架”,从而改善了复杂活动中理由过程的逻辑和稳定性。 Technical Report: https://arxiv.org/abs/2506.17728Github: https://github.com/openspg/kag​​-kinkerhuggingface: https://huggingface.co/openspg/kag​​-lanker-en- 7B-Instruct this continues in the Framwork Logical Form form of natural language Functions mechanism of bikeic representation更好的缪斯结构知识;并通过广泛的分裂和深层解决方案的结合来改善严格的问题;同时,引入了基于知识知识知识知识的判断机制,以使用整个模型参数知识和外部形式知识,并使用反噪声内容模块来减少搜索信息的噪音并增强搜索搜索的信誉帐篷。视频1 KAG思维器与KAG的框架集成,“结构化思维”以“深度识别”问答产品为指导,研究团队将上述方法包括了统一体系结构的方法,该方法支持可变性和深层推理的许多旋转,并通过训练有素的KAG-INKINKER 7B常规模型,由正常维修的管理模型。实验结果表明,在7个单跳和多跳的倾斜度数据中,与使用SOTA研究的深入搜索方法(例如Search-R1,Zerosarch和Research)相比,它们的性能平均增加了4.1%。将后者的轮廓与多跳的理解活动相结合,我们错过了诸如嬉皮V2,派克摊位等的QWEN2.5-72B作为基本模型(使用QWEN2.5-72B)的方法。此外,该模型还证实了其在医疗Q&A工作专业医疗领域的有效性。有关精制定制到其他专业领域,您可以参考其应用程序和perf问答医疗中的概念。 1 KAG-TINKER公司合成和模型培训过程模型的体系结构的概述如下所示。该模型的主要内容包括:图2复杂解决方案对问题的一般 - idea。宽度分开 +深度解决方案:复杂的多跳跃问题通常分为许多简单的子问题,以更好地利用外部知识库来解决。 KAG-THENINGER建议一种“宽分 +深层解决方案”方法(有关详细信息,请参见图2):分别范围:用许多原子问题分解原始问题,并在每个子问题之间保持逻辑期望,以确保分裂的准确性。每个原子问题都由逻辑运算符形式表示。每种逻辑形式都有一个双重表示 - 自然语言描述(步骤)和逻辑表达式(动作),两者是语义。深层解决方案:对需要获得(获取)获得S的深度解决方案进行S有效的外部知识以确保准确的答案。在搜索之前,该模型将首先在知识边界上执行酌处权:如果当前的大型模型知识足以回答子问题,请跳过搜索;否则,继续解决深度解决方案。知识边界的边界:使用LLM知识的LLM知识使用大型模型参数知识并减少不必要的搜索任务,Kag-Tininker指定的以SPO三重态(例如生物,事件)和通过大型模型和外部知识定义的子任务的子任务的收购为中心的子任务。确定知识边界的任务是一个非监视过程:首先让Malmy直接的子问题模型直接,然后确定答案是否为真实答案。此过程产生了两个标签:自然语言输出酌处的结果(真/错误);第一次出现时回答相应令牌的可能性,如果它在设定的阈值之下,则将其标记为False,否则是真的。当两个标签都是正确的时,将大型模型的知识视为足够回答子问题,并且可以直接采用其生成的答案而无需进一步搜索。 3确定反小数名人知识的界限:提高搜索内容的信誉。对于应该获得子问题,思想家需要确定当前的搜索结果是否可以解决相应的子问题。但是,其他人寻求者获得的内容是不平衡的,尤其是网页获得的内容。为了更好地分析搜索结果,搜索模块将查看反噪声内容,然后从剩余内容中提取一些基本信息,作为直接提供子问题或连续深入搜索的基础。当分配分辨率的程度和深度时,思想家使用四个逻辑表格求解器KAG的框架。每个逻辑运算符表格的含义如图4所示。主要是获取,减法和数学的主要问题,该问题将进一步解决识别识别问题的问题,主要用于答案摘要。 4 4逻辑形式的单跳和多跳Q&A实验结果的定义以评估模型的有效性,Panana TeamSlice是由7个一般单跳和多跳的理解集选择的概念数据,并使用了相同的外观(E5-Base-V2)。基线选择了最新的研究,搜索R1,Zerosarch和Steparch等,并遵循基线方法评估指标(EM)。要使用相同的检索器,仅使用表单逻辑表示中纯自然语言中的内容。一般实验结果在表1中显示。与没有搜索基线相比,思维模型的平均表现比天真的生成高27.1%和34.6%分别和cot。与搜索改进方法相比,思维模型的平均性能分别为24.6%,22.6%和14.8%,分别比Search-O1,Ircot和Naive Rags高出14.8%。与基于加强的程序图研究相比,思想家模型比SOTA模型研究高4.1%。具体而言,单跳数据集的平均增加为4.5%,多跳数据集的平均增加为3.9%。主要原因是找到知识点的任务差异会降低搜索的复杂性。表1在不同型号(基本型号QWEN2.5-7B-教学)和框架升级以及V0.8升级知识基础功能的表1 EM性能。它扩展了域知识的私人基础(包括结构化和空缺数据)和公共网络知识的基础,并通过MCP协议支持介绍公共数据资源,例如LBS和WebSEarch。此外,管理领域知识的私人知识的能力是挂钩以及各种主要类型的索引,例如情节,摘要,知识,原子,块,桌子等。用户可以根据索引场景的特征选择适当性,平衡建筑物和业务成本的有效性。通过此版本的0.8,MCP完全接受KAG,提供了访问公共网络MCP服务的能力,并在代理过程中包括和推理和侧面(基于MCP协议)。视频2知识指数构建的构建。 KAG框架和框架V0.8版本的应用为思想家模型应用程序提供了支持。在合并思想家之后,数学和减法将求解器在大纲中使用,然后使用思维模型来汇总答案。您可能会发现,与思维模型相比,KAG-BEFOREKER 7B的EM和F1的平均性能提高了3.0%和3.8%。它还表明Thatkag的大纲可以更好地帮助解决TH应该模型。表2:自我升级库中不同模型的性能,同时还在扩展问题中进行稳定测试,以使KAG框架不稳定问题。同样的问题是 - 两次混合物。如果结果两次相同,则分数为1,否则为0。实验结果如图5所示,在三个HotPotQA数据集中,Kag-Tinker 7b性能的稳定性比V0.8 7b和V0.8 72B更好。在常用温度参数0.6和0.8下,与V0.8 7b和V0.8 72B相比,具有思想家7b+72b的KAG分别增加了17.9%和7.6%。图5在v0.8温度参数的不同参数下,具有三个数据集的不同参数的稳定性中,不同试验的平均性能优于HipporagV2和Pike-rag。有关详细的实验设置,请参阅v0.8发行说明。尽管v0.8的想法大大提高了稳定性Of该图,其平均性能低于KAG-V0.8 72B,略高于V0.8 32B。它表明,与7B思想家模型约会的问题仍然缺乏。已经发现,对于某些复杂的问题,将思想模型划分的能力还不够,例如“约翰三世的帕特拉尔奶奶,克利夫斯公爵?”,这需要闯入谁,需要闯入谁约翰三世,克莱维尔斯公爵和约翰三世的母亲,杜克·奥昂的母亲约翰三世。思想模型的分裂是hinunstable的主要原因。首先,LLM对复杂的纯自然语言问题有不平衡的分裂。其次,7b模型的整体能力有限。为了解决这些问题,研究小组说,将来将从结构化数据中样本进行样品,以确保模型分裂的相似性。表3多跳医疗功能应用程序中不同框架的性能以验证capabilit研究团队在专业领域的框架中,在医学和受过训练的KAG-MED之前创造了一系列的转变。实验结果在表4中显示。在DeepSeek-R1-Distill-Qwen-14b中,KAG-MED-MED-INCENER在现有的多轮计划和获得IRCOT增强和反应的现有多轮计划中分别获得了3.95%和4.41%的兼容性。同时,它比抹布式模型高3.8%。表4。MEDQA中不同模型的准确性

0
首页
电话
短信
联系