kag
作者:365bet登录日期:2025/07/11 浏览:
最近,蚂蚁小组知识引擎团队已正式在KAG-PENDER模型(一个结构化推理领域)与Zhijiang大学和汤吉大学合作启动了最新成就。该模型是Marco Kag的迭代和关键更新,并着重于为一般或专业领域的复杂推理任务构建一个稳定且可解释的思想范式。自2025年以来,OpenAI进行的深入搜索展示了伟大模型在多个复杂推理任务中搜索和计划推断的强大能力。从那以后,出现了许多关注行业和学术界的方法,例如搜索R1和研究。他们的主要思想是让小型模型“思考”作为专家“学习”模型如何通过强化学习获取和使用外部知识。但是,这些基于语言的方法是态度的推断,是“再生”的模型,以及不准确的推理和UNST等问题有能力的过程仍然很突出。当人类专家解决复杂的问题时,他们经常使用结构化的思维方法将原始问题分解为小问题,独立验证并依次解决。受到这一点的启发,调查人员提出,Kag-Pender建立了一个明确的“脚手架”,并在模型思维过程的层次上建立了层次,从而改善了复杂任务中推断过程的逻辑和稳定性。技术报告:https://arxiv.org/abs/2506.17728github:https://github.com/openspg/kag-thinkerhuggingface:https://hugginggingface.co/openspg/kag-thinker lege。表达机制更好地使用结构化知识。对梅约拉的深层分裂和深层解决方案的结合,解决了解决问题的严格性。同时,知识限制的机制限制了针对知识点对准的判断,从而最大程度地提高了大型模型和外部形式知识的参数化知识。我使用反新模块Of内容以减少搜索信息的噪音并提高其搜索内容的可靠性。 1 kag-pender视频与针对“深度推理”的问题和答案的示例的“结构性思想”的kag框架集成在一起。最后,研究人员将先前的策略纳入了一个综合体系结构,该策略支持多次迭代和深入推断,并通过有监督的精细调整方法培训了7B KAG的通用模型。实验结果表明,与使用深度学习强化方法(例如Search-R1,Zerostoch和Research)相比,七个推理数据集和多个跳跃的七个推理数据集增加了4.1%。然后,与Kag Marco集成,然后,MultiHop的推理任务超过上下文学习(使用QWEN2.5-72B作为基础模型),例如Hipporag V2,Pike-Rag等。此外,该模型还验证了医疗TAS的专业效果Q&A的KS。有关其他专业中精致的自定义,请参阅医学问题和答案中的应用和表现。 1 KAG-弯曲集成过程和模型训练的一般描述在下图中显示了模型体系结构。该模型的中心内容包括:图2。复杂问题解决方案的一般描述宽度分开 +深层解决方案:多个多个套件的复杂问题通常分为多个简单的子问题,并且更有效地解决了外部知识库。 KAG经过思考提出了“宽 +深部分解决方案”(有关更多详细信息,请参见图2):宽度划分:分解几个原子问题中的原始问题,以保持每个子问题之间的逻辑依赖性,以确保分区的精度。每个原子问题由逻辑形式运算符表示。每种逻辑形式都有一个双重表达式:有自然语言的描述(步骤)和logical表达(动作),两个是语义。详细的解决方案:执行一个详细的解决方案,需要获得(搜索)以获得足够的外部知识以确保精确响应。在搜索之前,第一个模型执行限制知识判断。如果确定当前对当前伟大模型的知识足以响应子展品,请省略搜索。再次,我们将继续解决详细的解决方案。知识限制的确定:要完全使用LLM的参数化知识,使用大型模型的参数知识并减少不必要的搜索任务,KAG思想家定义了搜索子插件的重点是知识点(实体,事件等),定义了通过Spo和Baink Monisco的搜索搜索的颗粒状。确定知识限制的任务是一个非监督过程。首先,让最大模型直接响应子集,然后决定是否答案er是真正的答案。此过程产生了两个标签:确定自然语言输出的结果(true/false)。响应的概率是第一次显示时相应的令牌,如果它低于配置阈值,则标记为false。否则是真的。只有当两个标签都是正确的时,才被认为是对伟大模型的知识,本身就足以响应子集。 3确定搜索反淘汰的知识限制:提高搜索内容的可靠性。对于必须恢复的子问题,思想家必须确定当前的搜索结果是否可以解决相应的子问题。但是,多个搜索引擎恢复的内容不平等。特别是,网站上恢复的内容不平等。为了更好地分析搜索结果,搜索噪声模块分析了所寻求的每篇文章与当前子问题之间的关系,并消除了那些不易位的关系t,并从剩余内容中提取某些基本信息作为基础,以直接提供对连续和详细搜索的子集或响应。通过将宽度划分以求解深度,思想家使用KAG框架中定义的四个逻辑形式解决方案。图4显示了每个逻辑形式运算符的定义。搜索主要解决搜索问题,主要是估计推理分析,INVERS数学和生产主要用于总结答案。 4对4种逻辑形式运算符的定义实验结果,以评估多个跳跃和多责任感模型的有效性以及多ihop答案,研究团队有7个选择了两个在单个跳跃和多跳和多跃波中的推断数据集,并使用相同的搜索引擎(E5-Base-V2)。基线是从最后一项研究,搜索-R1,Zerostoch,Stepearch等,遵循的这些方法评估指标(EM)中选择的。要使用相同的检索器,只有P的内容代表段的自然语言d用于逻辑形式。一般的实验结果显示在表1中。与非搜索基线相比,思想家模型的平均性能分别比幼稚产生和摇篮的平均产量高34.6%。与搜索改进方法相比,思想家模型的平均性能分别为22.6%,22.6%和14.8%的搜索-O1,IRCOT和NAIVE RAG的平均收益率。与基于强化学习的方法相比,思想家模型比SOTA模型的研究高4.1%。具体而言,唯一跳跃数据集的平均增加为4.5%,多个跳跃数据集的平均增加为3.9%。主要原因是搜索知识点的粒度的分解降低了搜索的复杂性。表1。几种型号(基本模型QWEN2.5-7B - 教学)marco kag kag kag kag v0.8 kn特性的EM产量Owledge基地。它扩展了其私人领域知识库(包括结构化和非结构化数据)和公共网络知识库,以支持MCP协议上的公共网络数据源的实现,例如LB和WebSEarch。此外,管理私人领域知识率的能力已更新,并包括各种基本指数,包括方案,摘要,知识,原子,零件和表格。用户可以根据场景的特征选择正确的一个。指数的类型平衡了建筑物的成本和业务的有效性。在此发布的0.8中,KAG完全涵盖了MCP,访问公共网络的MCP服务以及代理流程中的KAG推理问题和答案(MCP)。预测集成的能力(基于协议)。 Video2宪法知识指数构建功能。 Marco KAG KAG框架V0.8版本应用程序为思想家模型应用程序提供了支持。一个在思想家,数学和估计框架中的集成中,用于在框架内求解解决方案,然后使用思想家模型来汇总答案。我们发现,与思想家模型相比,KAG-Preshers 7b的EM和F1的平均性能提高了3.0%和3.8%。这也表明KAG框架可以帮助解决思想家模型。表2:自构建的搜索库中不同模型的性能在问题宽度的分解中进行稳定测试,这是由于KAG框架问题的不稳定拆卸。同样的问题两次。如果结果两次相同,则得分为1。否则,那将是0。在图5中显示的实验结果,在HotPotqa,2Wiki和Musique的三个数据集中,KAG-Stoments 7b的稳定性产量高于KAG-V0.8 7B和KAG-V0.8 72B的稳定性。在常用温度参数0.6和0.8中,使用思想家7b+72b的KAG增加了17.9%和7.6%,Res与KAG-V0.8 7B和KAG-V0.8 72B相比,协调一致。图5使用三个数据集的思想家,具有不同温度参数的模型不同稳定性测试的平均产率高于HipporagV2和派克rag。有关详细的实验配置,请参见发射Note KAG-V0.8。具有思想家的KAG-V0.8大大提高了框架的稳定性,但其平均性能低于KAG-V0.8 72B,略大于KAG-V0.8 32B。这表明仍然缺乏分解7B思想家模型问题的能力。对MAL CASO的分析表明,PE Modelnesor划分的能力还不足以解决某些复杂的问题,例如“谁是Patral的Juan III的祖母,Cleaves的公爵?” F创建丑陋的母亲是她的母亲。造成此问题的主要原因是思想家模型的划分是不稳定的。首先,LLM与复杂而纯净的自然语言问题不一致。第二,7b模型的概括功能有限。为了解决这些问题,研究人员将来说,问题划分的问题将从结构化数据中综合,以确保模型的划分一致性。表3在MultiHop推理中的几个框架的表现,以检查该框架在现场医疗领域的专业表现领域的功能,研究团队在医学领域和思想家KAG训练方面进行了一系列转变。表4中显示了实验结果。与现有的巡回赛模型相比,DeepSeek-R1-Distill-Qwen-14b,Kag-Med-Troughout分别获得了3.95%和4.41%的显着绩效提高,并提高了4.41%。同时,它比Niklag的自适应恢复模型高3.8%。表4。不同的MEDQA模型的准确性
相关文章