知识的涓滴汇聚：小数据，大智慧

在人工智能的浩瀚海洋中，我们常常听到“数据为王”的说法。仿佛只有拥有海量数据，才能训练出强大的模型，解决复杂的问题。然而，现实情况是，在许多特定领域，数据获取往往面临着成本高昂、标注困难等挑战。比如，医学问答领域，专业知识门槛高，标注需要耗费大量时间和精力。那么，在这些低数据场景下，我们是否就束手无策了呢？

最近，中国科学技术大学（以下简称“中科大”）的一项研究成果，为我们带来了新的希望。这项研究表明，即使仅用 5% 的训练数据，也能在特定领域内显著提升知识准确率。具体而言，在低数据医学问答任务上，一种名为 KG-SFT 的方法，在英语场景中仅使用 5% 的训练数据，就比传统方法提高了近 14% 的准确率。这项研究入选了 ICLR 2025，无疑是对其价值的肯定。

那么，这项研究究竟有何创新之处？其背后的原理又是什么？我们又该如何借鉴这项研究的思路，解决实际问题呢？

拨云见日：KG-SFT 的核心思想

KG-SFT 方法的核心思想，在于将知识图谱 (Knowledge Graph, KG) 与指令微调 (Instruction Fine-Tuning, SFT) 相结合。

知识图谱是一种结构化的知识库，它以图形化的方式存储实体及其之间的关系。比如，在医学领域，知识图谱可以包含疾病、症状、药物等实体，以及它们之间的关系，如“疾病 A 的症状是 B”、“药物 C 可以治疗疾病 A”等等。

指令微调是一种基于预训练语言模型的训练方法。它通过使用带有指令的数据集，来微调预训练语言模型，使其能够更好地理解和执行特定任务。比如，在医学问答领域，指令微调可以使用诸如“回答以下医学问题：……”的数据集来训练模型。

KG-SFT 方法正是将知识图谱的知识融入到指令微调的过程中，从而提高模型在低数据场景下的性能。具体来说，KG-SFT 方法首先利用知识图谱来增强训练数据。例如，对于一个医学问题，KG-SFT 方法可以从知识图谱中检索出相关的知识，并将这些知识添加到问题中，从而生成新的训练数据。然后，KG-SFT 方法使用增强后的训练数据来微调预训练语言模型。

这种方法就好比给学生提供学习资料的同时，还给他们准备了一份知识地图。学生不仅可以学习课本上的知识，还可以通过知识地图了解知识之间的关联，从而更好地理解和掌握知识。

抽丝剥茧：KG-SFT 的优势分析

KG-SFT 方法之所以能够在低数据场景下取得如此显著的成果，主要归功于以下几个方面的优势：

知识增强： KG-SFT 方法利用知识图谱来增强训练数据，有效地扩充了训练数据集，缓解了低数据带来的问题。
知识引导： KG-SFT 方法将知识图谱的知识融入到训练过程中，引导模型学习领域知识，提高了模型对领域知识的理解能力。
可解释性： KG-SFT 方法可以追溯模型生成答案的依据，提高了模型的可解释性，增强了用户对模型的信任。

举个例子，假设我们需要训练一个能够回答关于“糖尿病”问题的模型。如果只用 5% 的数据进行训练，模型可能无法学习到足够的知识。但是，如果使用 KG-SFT 方法，就可以从医学知识图谱中检索出与“糖尿病”相关的知识，比如“糖尿病的症状”、“糖尿病的治疗方法”等等，并将这些知识添加到训练数据中。这样，模型就可以学习到更多的关于“糖尿病”的知识，从而更好地回答相关问题。

他山之石：KG-SFT 的应用与启示

KG-SFT 方法的成功，为我们在低数据场景下的模型训练提供了新的思路。除了医学问答领域，KG-SFT 方法还可以应用于其他领域，例如：

法律咨询： 利用法律知识图谱，增强法律咨询数据的训练，提高模型在法律问题解答方面的准确率。
金融风控： 利用金融知识图谱，增强金融风控数据的训练，提高模型在风险识别方面的能力。
智能客服： 利用行业知识图谱，增强智能客服数据的训练，提高模型在客户问题解答方面的效率和准确率。

此外，KG-SFT 方法也给我们带来了一些启示：

知识的重要性： 在人工智能时代，知识仍然至关重要。即使拥有强大的模型，如果没有足够的知识，也难以解决复杂的问题。
知识的结构化： 知识图谱的出现，为知识的结构化存储和利用提供了新的途径。通过知识图谱，我们可以更好地组织和管理知识，从而更好地利用知识来解决问题。
领域知识的融合： 将领域知识融入到模型训练中，可以显著提高模型在特定领域的性能。

星星之火：小数据驱动的未来

在数据爆炸的时代，我们常常被海量数据所迷惑，认为只有拥有大量数据才能取得成功。然而，中科大的这项研究提醒我们，即使在低数据场景下，我们仍然可以通过巧妙的方法，例如利用知识图谱，来提升模型的性能。

这项研究不仅为我们提供了一种新的技术手段，更重要的是，它激发了我们对低数据场景下人工智能发展的信心。我们可以预见，在未来，随着知识图谱等技术的不断发展，我们将能够更好地利用有限的数据，创造出更大的价值。小数据，也能驱动人工智能的未来！

realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

中科大新技术：5%数据，14%准确率提升

知识的涓滴汇聚：小数据，大智慧

拨云见日：KG-SFT 的核心思想

抽丝剥茧：KG-SFT 的优势分析

他山之石：KG-SFT 的应用与启示

星星之火：小数据驱动的未来

edit

realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

知识的涓滴汇聚：小数据，大智慧

拨云见日：KG-SFT 的核心思想

抽丝剥茧：KG-SFT 的优势分析

他山之石：KG-SFT 的应用与启示

星星之火：小数据驱动的未来

Related Articles