张云佐 李怡

张云佐,李怡. 基于三元组信息指导的生成式文本摘要研究[J]. 北京航空航天大学学报,2024,50(12):3677-3685 doi: 10.13700/j.bh.1001-5965.2022.0896
ZHANG Y Z,LI Y. Research on abstractive text summarization based on triplet information guidance[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(12):3677-3685 (in Chinese) doi: 10.13700/j.bh.1001-5965.2022.0896
doi: 10.13700/j.bh.1001-5965.2022.0896
基金项目: 国家自然科学基金(61702347,62027801); 河北省自然科学基金(F2022210007,F2017210161);河北省高等学校科学技术研究项目(ZD2022100); 中央引导地方科技发展资金(226Z0501G); 石家庄铁道大学在读研究生创新能力培养资助项目(YC2022058)


  • 中图分类号: TP391.1

Research on abstractive text summarization based on triplet information guidance

Funds: National Natural Science Foundation of China (61702347,62027801); Natural Science Foundation of Hebei Province (F2022210007,F2017210161); Science and Technology Project of Hebei Education Department (ZD2022100); Central Guidance on Local Science and Technology Development Fund (226Z0501G); Shijiazhuang Tiedao University Graduate Innovation Funding Project (YC2022058)
More Information
  • 摘要:

    针对当前生成式文本摘要模型在解码时对文本事实性信息利用不充分的问题,提出一种以事实三元组为指导的文本摘要模型 SPOATS。该模型基于 Transformer 结构搭建具有事实提取能力的双编码器和融合事实特征的解码器。构建 LTP-BiLSTM-GAT (LBiG) 模型,并设计最优事实三元组选择算法,从非结构化中文文本中提取最优事实三元组,并获取事实性信息的特征表示;利用改进的 S-BERT 模型对原文进行句子级向量表示,获取语义丰富的句子编码;设计基于注意力的事实融合机制,融合双编码特征来提高模型在解码阶段对事实性信息的选择能力。实验结果表明:在LCSTS数据集上,所提模型相比于基线模型 ERPG 的R1值提升了2.0%,摘要质量得到明显提升。


  • 图 1  事实性文本摘要任务示意图

    Figure 1.  Task diagram of factual text summarization

    图 2  SPOATS 模型结构

    Figure 2.  Structure of SPOATS model

    图 3  S-BERT 模型结构

    Figure 3.  Structure of S-BERT model

    图 4  事实三元组嵌入

    Figure 4.  Embedding of factual triples

    表  1  LCSTS数据集信息

    Table  1.   Information on LCSTS dataset

    数据集 样本数量 数据用途
    PART Ⅰ 2400591 训练集
    PART Ⅱ 10666 验证集
    PART Ⅲ 1106 测试集
    表  2  LCSTS数据集在不同模型上的实验结果

    Table  2.   Experimental results of LCSTS dataset on different models %

    模型 R1 R2 RL
    RNN[13] 19.8 8.4 16.8
    PGN[14] 29.3 17.0 24.9
    ERPG[15] 28.8 17.6 26.9
    BERT-Trans 29.1 16.7 26.2
    SPOATS 32.1 19.5 27.6
    表  3  实例分析结果

    Table  3.   Results of case study

    样本1 样本2 样本3
    参考摘要 专家建议养老险每多缴1年养老金应多发5% 可穿戴技术十大设计原则 某电影票房破纪录
    RNN[13] 孙洁认为养老金多发5% 本文总结可穿戴产品十大设计原则,强调解决重复性问题 某电影上映几天票房破XX亿大关
    PGN[14] 人大代表认为养老保险超过15年,养老金多发5% 可穿戴技术十大设计原则出炉,注重从人出发的设计思路 某电影票房大卖,上映即破XX亿,制作精良获好评
    ERPG[15] 专家认为养老保险缴费每多一年,养老金多发5% 可穿戴产品设计原则:吸引注意但不刻意,提升用户能力 某电影票房破纪录,精彩剧情和出色演员表现赢得好评
    BERT-Trans 人大代表认为养老保险应多发5% 十大设计原则引领可穿戴技术,强调用户能力而非取代人 某电影成为今年最卖座之一,票房破XX亿大关
    SPOATS 专家提议养老保险缴费超过15年后,养老金应多发5% 本文明确可穿戴技术十大设计原则,与用户能力提升紧密相关 某电影票房破XX亿,剧情、演员、制作均获观众和业内好评
图(4) / 表(3)
  • 收稿日期:  2022-11-03
  • 录用日期:  2023-02-17
  • 网络出版日期:  2023-03-09
