基于大语言模型和思维链强化的开放领域关系抽取方法研究

期刊: 环球科学 DOI: PDF下载

陈舒汉 龚永罡

北京工商大学 计算机与人工智能学院 北京 100048

摘要

针对大语言模型在开放领域关系抽取中性能波动的问题,本研究提出了一种结合大语言模型与思维链的关系抽取方法。该方法基于开放领域文本结构化逻辑和思维链机制,通过生成结构化文本摘要,减少模型在关系和事实上的幻觉,并引入提示工程优化抽取过程。使用GPT-4o模型进行实验,并对比了方法应用前后的性能指标。结果显示,在五个不同领域的中文数据集上,该方法显著提升了关系抽取的准确率和F1值,尤其在DiaKG和IEPA数据集上,准确率分别提升20.8%和14.0%,F1值提升22.8%和10.9%。实验证明该方法提升了模型的抽取性能,并且可以有效解决了模型性能不稳定的问题。


关键词

大语言模型;开放领域关系抽取;思维链;提示学习

正文


中图分类号:TP391.1        文献标志码: A

Research on Open-Domain Relation Extraction Method Based on Large Language Models and Chain-of-Thought Enhancement

 CHEN Shuhan*,GONG Yonggang

00001Abstract: To address the performance fluctuations of large language modelLLMin open-domain relation extraction, this study proposes a relation extraction method that combines large language models with chain-of-thought (CoT). This method leverages the structured logic of open-domain texts and the CoT mechanism, generating structured text summaries to reduce hallucinations in relations and facts. It also introduces prompt engineering to optimize the extraction process. Experiments were conducted using the GPT-4 model, and performance metrics before and after applying the method were compared. The results show that on five different Chinese datasets, this method significantly improved the accuracy and F1 score of relation extraction. In particular, on the DiaKG and IEPA datasets, accuracy increased by 20.8% and 14.0%, while F1 score improved by 22.8% and 10.9%, respectively. The experiments demonstrate that the method enhances the model's extraction performance and effectively addresses the issue of unstable model performance.

00001Keywords:  Large Language Model; Open-Domain Relation Extraction; Chain-of-Thought; Prompt Learning

引言

随着移动互联网的飞速发展,网络文本数据迅猛增长,其中大部分为非结构化数据。关系抽取,即从这些数据中提取三元组(主体、关系、客体),是理解自然语言的关键。目前的方法主要依靠深度学习或预训练模型,但在缺乏标注数据时表现不佳[1]

大语言模型(LLM[2]为关系抽取带来了新的方向,LLM能捕捉复杂文本的语义信息,但在开放领域仍面临挑战,如关系丢失、幻觉等,影响准确率和稳定性。现有的解决方法如检索增强和再训练等方法需要高质量知识库和大量人工成本,且闭源模式的LLM限制了对特定领域的微调和应用。

因此,提出了一种基于思维链强化的LLM关系抽取方法(Chain-of-Thought Enhanced Large Language Model for Relation ExtractionCoT-LLM-RE)。该方法通过思维链引导LLM生成结构化摘要并引入提示工程,提升对不同领域文本抽取的准确率和稳定性。

相关工作

LLM依靠其强大的语义理解和迁移学习能力,减少了关系抽取任务对标注数据的依赖。Thirunavukarasu[3]在临床应用背景下讨论LLM优缺点,指出其在关系抽取方面仍有较大的提升空间。Dagdelen[4]通过微调模型,利用LLM提取结构化关系,取得了较高的准确率。为提升LLM在特定领域的抽取能力,曹鹏[5]提出同步迁移微调编码与功能风格的思想,以实现低资源目标域的高效适配与微调。Yang[6]开发了一个临床语言模型GatorTron,其准确率显著高于开源模型。董磊等[7]通过LLM获取关系知识本体,并构建知识图谱,为后续研究提供了丰富的结构化语义信息。然而,预训练微调方法虽在一定程度上提升了LLM的关系抽取性能,但其对大量标注数据的依赖和难以解决的模型偏差问题仍限制了其在实际应用中的广泛性。

随着GPT-3的推出,提示学习[8]作为一种新兴的LLM学习策略逐渐受到关注。该策略通过设计合理的提示模版引导信息流并生成特定约束的输出,减少了模型偏差。文坤建等[9]引入了一种针对实体的注解标签,对实体进行精准提示,从而实现实体语义的增强及与上下文信息的紧密联系。Wang[10]开发了一个特定的提示框架,整合了基线提示、注释指南和错误分析等元素,进一步提升了LLM的三元组抽取效果。Kocoń[11]提出的上下文优化方法,通过将提示中的上下文词汇转化为可学习向量并建模,减少了对领域专业知识的依赖并提升了模型性能。谭思莹等[12]引入思维链机制引导大模型进行推理,优化了LLM小样本关系抽取任务。

综上所述,LLM具备处理多样化文本和跨领域信息的能力,与思维链和提示学习的结合能充分发挥其泛化优势。在开放领域利用LLM进行关系抽取并通过思维链引导的提示微调优化模型性能的研究具有显著价值。因此提出了CoT-LLM-RE策略以提升模型的性能。

基于CoT-LLM-RE策略的关系抽取方法

CoT-LLM-RE策略包括三步。首先通过项LLM提供文本结构化示例实现任务对齐,然后输出文本摘要,最后基于文本摘要等对原文本进行关系抽取得到三元组。CoT-LLM-RE框架如图1所示。

 

图1 CoT-LLM-RE策略框架

2.1 开放领域文本逻辑结构化

因为开放领域文本存在随机性和广泛性,原文中可能充斥着冗余或复杂信息,这易使LLM在理解时产生幻觉。同时,作为自回归模型的LLM在预测输出时难以兼顾后文。为缓解这些问题,CoT-LLM-RE策略在初始对话中提取结构化文本摘要,为后续文本简化和关系提供信息基础。本研究借鉴了6W2H通用分析法(WhatWhereWhenWhoWhyWhichHowHow much),以帮助LLM更准确地理解和生成简洁、清晰的结构化摘要。实验显示,这种方法通过文本拆解和重组,有效提升了模型解决问题的能力。根据6W2H,开放领域文本被细分为五大板块:文本所属领域、问题或者主题、背景信息、方法论或主要事件和结论或结果5大部分,文本结构及其示例详见表1

表1 文本结构及其示例

文本结构

内容

内容结构示例

所属领域

领域类型,领域背景信息。

本研究属于生物医药领域,专注于癌症治疗。

 

问题或者主题

主要研究问题或讨论的核心主题。

本文探讨的是深度学习在医学影像中的应用及其效果。

背景信息

研究或讨论的背景,相关的前期研究或事件。

以往的研究表明,AI在图像识别上的潜力尚未得到充分发挥。

方法论或主要事件

采用的研究方法,实施的实验或重要的事件。

小明周日去XX医院XX科看病。

结论或结果

主要发现、解决方案或最终结果。

AI技术在医学影像领域的应用前景广阔,能够有效辅助医生提高诊断质量。

内在结构化的逻辑关系有助于保持摘要的连贯性和条理性,帮助模型集中注意力在关键信息和逻辑框架上,减少信息扭曲、冗余和误解,从而缓解LLM的幻觉问题。

2.2 基于思维链的结构化摘要生成

为了获取面向关系抽取的结构化文本摘要文本,引入了思维链(Chain-of-ThoughtCoT),帮助在LLM学习结构化逻辑关系并依此生成摘要内容。基于CoT策略的结构化摘要机制如图2所示。

图2 基于CoT策略的结构化摘要机制

CoT-LLM-RE策略中,LLM首先依据表1的五大文本结构对摘要示例,梳理内容和逻辑关系,实现结构化摘要生成任务的对齐。接着,对新的输入文本进行结构化摘要生成。随后,在结果检查阶段,根据预定义的五大文本结构检查生成的摘要是否达标。若符合要求,流程结束;否则,返回摘要生成步骤,循环直至满足所有要求。基于CoT策略的结构化摘要,保留了关键信息和逻辑框架,减少生成与原文不符的事实信息,有助于模型在关系抽取任务中聚焦重要实体关系,减少关系扭曲和丢失。

2.3 Prompt模版设计构建

为了提升LLM进行关系抽取的准确率,本文使用Prompt模版引导模型关注信息流和逻辑结构,并生成符合特定约束的输出,从而优化模型关系抽取的结果。基于LLM关系抽取的形式化定义如下:

                                               (1)

其中X={x1, x2, x3,  , xn}是输入文本序列集合,Y={y1, y2, y3,  , yn}是目标关系三元组集合,P是提示词,Pθ(y|x,P)通过将输入原文本X和提示P,逐步预测得到目标关系三元组。CoT-LLM-RE策略首先向LLM展示文本结构和内容示例(详见表1),确保生成的摘要文本与关系抽取任务对齐。然后将原文本和文本结构及内容示例输出LLM生成结构化摘要文本,并根据文本结构及内容示例对生成的文本进行质量检验,直至模型认为新的摘要符合文本结构。整个流程如图2所示。

在得到检验通过的结构化摘要文本后,构建包含具体需求、输出格式、结构化摘要和示例的Prompt模板,指导LLM进行关系抽取。在模版中,要求以三元组(A,R,B)形式输出结果,其中AB代表实体,R揭示实体间关系。此外,将生成的摘要作为提示输入模型,有效解决LLM在处理时无法兼顾后文信息的问题。最后,通过提供手工整理的实例作为示例提示,帮助模型学习实际应用中的联合抽取,挖掘隐藏的关联模式并激活其预训练能力。详细流程如图3所示。

 

图3 关系抽取Prompt模版

实验结果与分析

3.1 实验内容及评价指标

本研究使用GPT-4o进行关系抽取测试,通过Hugging Face调用模型的API接口并设置相关参数,完成多轮对话任务。GPT-4o模型的实验中采用Python 3.7PyTorch 2.1.2的环境进行编码,为探究LLM在关系抽取任务上的性能表现并验证CoT-LLM-RE的有效性,本文基于零样本测试和CoT-LLM-RE策略方法,对模型关系抽取任务,并在不同领域的公开数据集上进行宽松匹配F1值的计算与比较。

为测试CoT-LLM-RELLM在关系抽取任务中的影响,本文使用Chinese-Literature-NER-RE-Dataset(以下简称CL-NE-DS)、DiaKGCCKS2021DulEIEPA,总计五个不同领域的公开数据集进行关系抽取测试,数据集概览如表2所示。五个测试数据集具体的所属领域和标注范围各不相同,充分模拟了开放领域的广泛性和复杂性。

表2 数据集概览

数据集

所属领域

标注范围

CL-NE-DS

文学小说

个人、代词、地点、组织、时间、杂项实体等。

DiaKG

医学

疾病、疾病的分期类型、病因、发病机制等。

CCKS2021

金融

人物、时间、地点、事件、具体金融数据等。

DulE

媒体新闻

个人、地点、组织、时间、数值、事件等。

IEPA

生物医学

蛋白质的名称、种类、说明和相互作用关系。

在关系抽取任务的输出结果在信息边界上无法完全匹配数据集,采用基于宽松匹配的精准率P、召回率R和调和平均值F1作为评价指标,计算公式如下:

                                                        (2)

              (3)

                            (4)

其中,TP表示模型正确识别的实体/关系,FP表示被模型识别但识别错误的实体/关系,FN表示未被识别但真实存在的实体/关系。

3.2 面向关系抽取的文本结构化摘要任务测评

结构化摘要旨在引导LLM聚焦关键信息和逻辑框架。为评估其质量,采用人工评价与量化测试相结合的方式。人工评价指标包括:

1)摘要是否符合文本结构及其示例;

2)摘要语句是否通顺;

3)摘要语义是否准确;

4)摘要信息是否完整;

在人工打分阶段,摘要每满足一条标准得25。为了进一步量化测试结果,利用Python datasets函数,计算摘要的ROUGE-1ROUGE-2ROUGE-L值。ROUGE-1:衡量单词重叠度;ROUGE-2:衡量二元词组重叠度;ROUGE-L:衡量最长公共子序列长度。实验中,GPT-4oCCKS2021数据集的金融文本分别生成直接摘要和Prompt强化结构化摘要,并对比了人工评价结果、ROUGE得分和关系抽取F1值。具体效果见表3

表3 不同摘要生成方法效果对比

评价指标

直接生成摘要

结构化摘要

人工评价结果

67.5

82.4

ROUGE-1

0.4

0.6

ROUGE-2

0.3

0.4

ROUGE-L

0.5

0.6

关系抽取F1值/%

71.5

76.3

实验显示,结构化摘要相比直接生成摘要,在人工评价上提升了14.90分,达到82.4,表明其在流畅性、准确性和完整性方面均有显著提升。自动评价指标ROUGE-1ROUGE-2ROUGE-L分别提升了0.20.10.1,显示出结构化摘要在词语重叠度和文本匹配度上的优势。此外,关系抽取F1值提升了4.8%,达到76.3%,证明结构化摘要有效提高了模型捕捉文本关系的能力。总体而言,结构化逻辑关系和Prompt提示有效提升了摘要质量和关系抽取性能。

3.3 关系抽取任务测评

关系抽取任务要求根据句子语义信息抽取出三元组,测试结果如表4所示。

表4 关系抽取F1值实验测算结果

模型方法

P/%

R/%

F1/%

CL-NE-DS+零样本测试

75.3

72.6

73.9

CL-NE-DS+CoT-LLM-RE

84.7

76.2

80.4

DiaKG+零样本测试

59.2

65.1

62.1

DiaKG+CoT-LLM-RE

80.6

69.2

74.9

CCKS2021+零样本测试

70.2

63.0

66.6

CCKS2021+CoT-LLM-RE

80.5

72.1

76.3

DulE+零样本测试

72.9

73.6

73.2

DulE+CoT-LLM-RE

81.5

74.2

77.8

IEPA+零样本测试

54.3

61.4

57.8

IEPA+CoT-LLM-RE

68.3

69.2

68.7

在文学数据集CL-NE-DS上,GPT-4o的零样本关系抽取F1值最高,为73.9%,结合CoT-LLM-RE后提升至80.4%,增长6.5个百分点。金融数据集CCKS2021和新闻数据集DulE上,模型关系抽取准确性良好,本文方法使PRF1值均略有提升。对于医学数据集DiaKG和生物医学数据集IEPA,零样本测试下关系抽取准确率和F1值较低,但CoT-LLM-RE使准确率分别提升20.8%14.0%F1值提升22.8%10.9%,显示本文方法在提升模型关系抽取稳定性和效果方面的有效性,尤其对零样本提示下性能不佳的领域,CoT-LLM-RE显著提高了LLM的抽取准确性。

总结

本文提出了一种基于LLMCoT的关系抽取方法CoT-LLM-RE。该方法通过结构化摘要和提示工程,显著提升了LLM在开放领域,尤其是专业领域的关系抽取准确性和稳定性。

在后续研究中,构建全面、高质量的标注数据集十分重要。在数据充足的基础上,预训练微调可进一步提升LLM的抽取能力。此外,整合知识图谱或利用知识库查询常见实体关系也是有效优化手段。

参考文献

[1] Wang H, Li J, Wu H, et al. Pre-trained language models and their applications[J]. Engineering, 2023, 25: 51-65.

[2] Shanahan M. Talking about large language models[J]. Communications of the ACM, 2024, 67(2): 68-79.

[3] Thirunavukarasu A J, Ting D S J, Elangovan K, et al. Large language models in medicine[J]. Nature medicine, 2023, 29(8): 1930-1940.

[4] Dagdelen J, Dunn A, Lee S, et al. Structured information extraction from scientific text with large language models[J]. Nature Communications, 2024, 15(1): 1418.

[5] 曹鹏,温广琪,杨金柱,.面向测试用例生成的大模型高效微调方法[J/OL].计算机应用,1-8[2025-02-19].

[6] Yang X, Chen A, PourNejatian N, et al. A large language model for electronic health records[J]. NPJ digital medicine, 2022, 5(1): 194.

[7] 董磊,吴福居,史健勇,.基于大语言模型的施工安全多模态知识图谱的构建与应用[J/OL].计算机工程与应用,1-11[2025-02-19].

[8] Giray L. Prompt engineering with ChatGPT: a guide for academic writers[J]. Annals of biomedical engineering, 2023, 51(12): 2629-2633.

[9] 文坤建,陈艳平,黄瑞章,.基于提示学习的生物医学关系抽取方法[J].计算机科学,2023,50(10):223-229.

[10] Wang S, Sun X, Li X, et al. Gpt-ner: Named entity recognition via large language models[J]. arXiv preprint arXiv, 2023, 2304.10428.

[11] Kocoń J, Cichecki I, Kaszyca O, et al. ChatGPT: Jack of all trades, master of none[J]. Information Fusion, 2023, 99: 101861.

[12] 谭思莹,段建勇,范安宇,.结合思维链评估和事实验证的小样本关系抽取方法[J/OL].小型微型计算机系统,1-9[2025-02-19].

 

作者简介:陈舒汉(1999-),男,北京,汉,硕士研究生,北京工商大学,研究方向:大语言模型、自然语言处理

龚永罡(1973-),男,河南洛阳,副教授,博士,北京工商大学,主要研究方向为大语言模型、内容库、物联网、自然语言处理。

 


...


阅读全文