留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2022年  第48卷  第2期

显示方式:
2022年, 第48卷, 第2期
icon下载 (125939) 557 icon预览
论文
基于fastText算法的行业分类技术
吴震, 冉晓燕, 苗权, 刘纯艳, 张栋, 魏娜
2022, 48(2): 193-198. doi: 10.13700/j.bh.1001-5965.2020.0402
摘要:

随着中国经济的高速发展和技术创新能力的不断提升,高效的组织、分类信息是提供个性化行业管理和跟踪分析的基础。根据行业信息特点和发展规律,提出了一种基于fastText算法的行业分类模型。首先,构建行业分类关键词库,通过特征词库进行分词和权重计算。然后,构建分类器模型,实现中文行业的自动分类。最后,实验选取了80 000个包含企业经营范围、企业信息、舆论信息的测试文档,结果表明,所提模型结果高于Bayes、决策树、KNN等分类算法,取得了较好的应用效果。

自适应短文本关键词生成模型
王永剑, 孙亚茹, 杨莹
2022, 48(2): 199-208. doi: 10.13700/j.bh.1001-5965.2020.0601
摘要:

关键词抽取对文本处理影响较大,其识别的准确度及流畅程度是任务的关键。为有效缓解短文本关键词提取过程中词划分不准确、关键词与文本主题不匹配、多语言混合等难题,提出了一种基于图到序列学习模型的自适应短文本关键词生成模型ADGCN。模型采用图神经网络与注意力机制相结合的方式作为对文本信息特征提取的编码框架,针对词的位置特征和语境特征编码,解决了短文本结构不规律和词之间存在关联复杂信息的问题。同时采用了一种线性解码方案,生成了可解释的关键词。在解决问题的过程中,从某社交平台收集并公布了一个标签数据集,其包括社交平台发文文本和话题标签。实验中,从用户需求角度出发对模型结果的相关性、信息量、连贯性进行评估和分析,所提模型不仅可以生成符合短文本主题的关键词,还可以有效缓解数据扰动对模型的影响。所提模型在公开数据集KP20k上仍表现良好,具有较好的可移植性

基于变分推理的网络舆情传播模式分类
唐红梅, 唐文忠, 李瑞晨, 王衍洋, 王丽宏
2022, 48(2): 209-216. doi: 10.13700/j.bh.1001-5965.2020.0538
摘要:

随着网络社交媒体的快速发展,对舆情信息的传播模式进行分析成为研究热点。针对网络舆情传播模式分类任务中,小样本数据多路径生成分类正确率低的问题,提出了舆情传播领域知识图谱结构定义,建立了基于微博数据的舆情传播知识图谱与舆情传播分析任务数据集,使用GraphDIVA模型进行舆情传播模式分类,并在自建数据集中进行了舆情传播模式分类25样本测试实验。结果表明:模型在经过20轮训练后,分类正确率从76%提升到89.4%,说明GraphDIVA模型在减少训练次数、提升分类正确率方面具有更优的效果。

基于启发式遗传算法的模糊测试样本集优化方案
王志华, 王浩帆, 程漫漫
2022, 48(2): 217-224. doi: 10.13700/j.bh.1001-5965.2020.0422
摘要:

模糊测试作为当前最有效的漏洞挖掘方法,不仅比其他漏洞挖掘技术更能应对复杂的程序,而且可扩展性很强。在数据量相对较大的测试中,模糊测试输入样本集存在质量低、冗余性高和可用性弱等问题。因此,对模糊测试输入样本集进行研究,提出了启发式遗传算法,借助0-1矩阵,通过启发式遗传算法对样本的执行路径进行选取和压缩,从而获得优化后兼顾样本质量的样本集最小样本集合,进而加快模糊测试的效率。实验结果表明:在没有损失的情况下,样本集精简后模糊测试的时间比精简前降低了22%,压缩率相比传统方案提升约40%。

Android恶意软件检测低冗余特征选择方法
郝靖伟, 潘丽敏, 李蕊, 杨鹏, 罗森林
2022, 48(2): 225-232. doi: 10.13700/j.bh.1001-5965.2020.0567
摘要:

针对Android恶意软件检测特征选择中,对类间具有相同频率分布的特征过度关注而导致特征冗余问题,提出了一种Android恶意软件检测低冗余特征选择方法。利用Mann-Whitney检验方法选择出存在频率分布偏差的特征;通过外观比率间隔算法量化偏差程度和特征出现频率剔除低偏差和整体软件中低频使用的特征;结合粒子群优化算法和分类器检测效果得到最优特征子集。使用公开数据集DREBIN和AMD进行实验,实验结果显示,在AMD数据集上选择出了294维特征,进行特征选择后6种分类器的检测准确率提高了1%~5%,在DREBIN数据集上选择出了295维特征,少于4种对比方法,且进行特征选择后6种分类器的检测准确率提高了1.7%~5%。实验结果表明,所提方法能够降低Android恶意软件检测中特征的冗余性,提升恶意软件的检测准确率。

基于随机森林的物联网设备流量分类算法
李锐光, 段鹏宇, 沈蒙, 祝烈煌
2022, 48(2): 233-239. doi: 10.13700/j.bh.1001-5965.2020.0383
摘要:

物联网(IoT)设备流量分类对网络资产管理有重要意义,基于流量统计的分类技术是当前研究热点。已有算法主要基于流信息建立特征向量,而对数据包信息利用较少。改进了基于随机森林的物联网设备流量分类算法,基于流信息和流数据包信息共同建立特征向量。实验结果表明:所提算法与其他算法相比,所提算法的平均分类准确率由56%提高到82%,平均召回率由47%提高到67%,平均F1得分由0.43提高到0.74,混淆矩阵对比也有明显提升,因此具备更好的分类效果。

大规模物联网恶意样本分析与分类方法
何清林, 王丽宏, 罗冰, 杨黎斌
2022, 48(2): 240-248. doi: 10.13700/j.bh.1001-5965.2020.0401
摘要:

物联网(IoT)恶意样本发展迅猛,在网络中大量攻击各类物联网设备,但由于开源问题导致其家族特征并不明显,需要一种更细粒度的样本分类方法,以解决高级威胁样本发现和攻击组织追踪等问题。针对该问题,对2019年5月至2020年5月捕获到的157 911个物联网恶意样本进行了大规模分析,并标注了一套包含9个家族分支共计12 278个样本的数据集。提出了物联网恶意样本的分类方法,通过静态逆向分析提取FCG图和文本等复杂结构特征,利用图表示学习和文本表示学习的特征,在标注的数据集上取得了平均召回率88.1%的分类效果。所提方法在实际工作应用中效果优异。

面向异构大数据环境的数据脱敏模型
佟玲玲, 李鹏霄, 段东圣, 任博雅, 李扬曦
2022, 48(2): 249-257. doi: 10.13700/j.bh.1001-5965.2020.0403
摘要:

不同场景下数据类型和脱敏需求的差异,使得传统的数据脱敏方法难以满足大数据背景下的用户隐私保护需求。如何实现异构大数据中敏感信息的精准定向、高效脱敏,从而更好地确保数据安全、可信和可用,是本领域的研究难点。提出了一种在异构大数据环境下,基于文本、图片、音频和数据库等异构数据的脱敏模型,并对4个关键模块进行了描述。通过脱敏数据预处理,实现不同应用场景下敏感数据的自动标注和分级设置。采用数据预脱敏处理方法,并从数据可用性、数据关联性、隐私保护度、时间和空间复杂度等5个维度进行脱敏效果评价,实现定制化脱敏策略。经过脱敏任务调度完成脱敏任务分配和执行,并支持用户对部分脱敏数据恢复。基于提出的异构大数据脱敏模型,对2种典型数据脱敏应用场景进行了验证分析,表明所提模型能够实现不同应用场景下异构敏感数据的高效脱敏。

基于异质信息网络的恶意代码检测
刘亚姝, 侯跃然, 严寒冰
2022, 48(2): 258-265. doi: 10.13700/j.bh.1001-5965.2020.0539
摘要:

恶意代码对网络安全、信息安全造成了严重威胁。如何快速检测恶意代码,阻止和降低恶意代码产生的危害一直是亟需解决的问题。通过获取恶意应用的动态信息、构造异质信息网络(HIN),提出了描述恶意代码动态特征的方法,实现了恶意代码检测与分类。构建了FILE、API、DLL三类对象的4种元图,刻画了恶意代码HIN的网络模式。经过改进的随机游走策略,尽可能多地获取元图中对象节点的上下文信息,将其作为连续词包(CBOW)模型的输入,从而得到词向量的网络嵌入。通过投票方法改进主角度分析模型,得到多元图特征融合的分类结果。在仅可获得有限信息的情况下,大大提高了基于单元图特征的恶意样本分类准确率。

加密文档排序中保序加密算法的最优化选取
张久岭, 黄道超, 沈时军
2022, 48(2): 266-272. doi: 10.13700/j.bh.1001-5965.2020.0414
摘要:

对需要存储在服务器端的用户文档进行加密是对用户隐私保护的根本方法。采用不同的保序加密算法对加密文档排序结果有着不同的影响,寻找排序结果最优的保序加密算法是亟待解决的问题。提出了基于鉴别信息的保序加密算法选择的标准,比较了2种保序加密算法下对加密文档排序的性能。在通过保序加密算法得到的密文分布接近明文分布的情况下,排序得到的结果更接近明文检索的情况。所提出的选择标准具有理论上的意义,同时也可以指导在相同安全条件下保序加密算法的选择,以达到最优的检索结果。

电信大数据分析下的时空区域经济可视化应用
李娜, 刘文敏, 孟繁瑞, 刘岩
2022, 48(2): 273-281. doi: 10.13700/j.bh.1001-5965.2020.0388
摘要:

当前,国内移动电话用户已达15.9亿,在巨大的用户基数下,电信大数据呈现的特征在一定程度上反映了人群活动特征,进一步能够反映特定区域的发展状况。时空区域经济可视化应用利用数据挖掘技术对电信大数据进行处理和提取,以提高数据质量,并对数据进行不同规则的筛选,通过建模技术进行分析,结合电子地图数据、交通数据等多源信息,多角度分析用户行为特征。该应用分析对时空区域经济状况进行可视化研究,分析居民生活属性,同时,利用双重差分(DID)统计模型对区域经济政策进行评价。基于特征分析结果,为区域经济发展热点选址、指导城市商圈布局提供决策依据,提高了城市系统运行的效率,扩大了经济区域效益范围。

一种基于深度学习的恶意代码克隆检测技术
沈元, 严寒冰, 夏春和, 韩志辉
2022, 48(2): 282-290. doi: 10.13700/j.bh.1001-5965.2020.0400
摘要:

恶意代码克隆检测已经成为恶意代码同源分析及高级持续性威胁(APT)攻击溯源的有效方式。从公共威胁情报中收集了不同APT组织的样本,并提出了一种基于深度学习的恶意代码克隆检测框架,目的是检测新发现的恶意代码中的函数与已知APT组织资源库中的恶意代码的相似性,以此高效地对恶意软件进行分析,进而快速判别APT攻击来源。通过反汇编技术对恶意代码进行静态分析,并利用其关键系统函数调用图及反汇编代码作为该恶意代码的特征。根据神经网络模型对APT组织资源库中的恶意代码进行分类。通过广泛评估和与MCrab模型的对比可知,改进模型优于MCrab模型,可以有效地进行恶意代码克隆检测与分类,且获得了较高的检测率。

TLS密码套件的流量数据随机性分析
郭帅, 程光
2022, 48(2): 291-300. doi: 10.13700/j.bh.1001-5965.2020.0390
摘要:

密码套件是安全传输层协议(TLS)实现安全通信的基石,包含了密钥交换算法、对称密码算法和消息摘要算法,其中对称密码算法被用于实际通信的数据加密。通过对真实流量的采集与分析,得出了不同TLS密码套件在现网中的分布情况。设计了一种基于密文图像重构、美国国家标准与技术研究院随机性测试套件、卷积神经网络(CNN)等手段的分析方法,对现网主流对称密码算法(AES、ChaCha20)与其他常见对称密码算法(DES、3DES、RC2、RC4)的密文随机性进行分析。实验结果表明:参与对比的所有对称密码算法在电子密码本(ECB)模式下其密文均具有较差的随机性,无法通过大多数测试;AES与ChaCha20二种主流TLS对称密码算法在除ECB模式下其密文均具有良好的随机性,对基于CNN与随机森林的密码算法识别也具有抵抗能力。研究成果可为TLS密码套件的选择与加密流量的深层分析提供参考。

基于情感对象识别和情感规则的微博倾向性分析
王泽辰, 王树鹏, 孙立远, 张磊, 王勇, 郝冰川
2022, 48(2): 301-310. doi: 10.13700/j.bh.1001-5965.2020.0404
摘要:

微博平台数据中含有大量反映用户情感喜恶的信息,对于涉及博文倾向性分析的应用尤为重要。现有的分析方法往往聚焦在博文情感的简单分类上,无法分析特定类型实体的微博倾向性。为解决微博倾向性分析问题,实现博文立场判定,采用半监督学习的方法,通过协同训练和主动学习,训练实体识别模型,并构建基于主成分分析的情感规则,提取句子的主成分,将口语化的文本规范化为指定格式。再利用指向性实体的正负面性、情感词的褒贬义及情感词充当的句子成分,实现情感分类的更深层次分析——立场判定。针对实际问题进行立场判定实验,在不同规模数据集上的自对比实验和他比实验显示,随着标注实体的博文数量增加,模型对博文立场判断的正确率持续提升,而且所提方法判断博文立场的正确率显著高于对比方法,相较已有研究方法分别提高了2.79%和10.00%。

基于能源分解的用户用电行为模式分析
卢瑞瑞, 于海阳, 杨震, 赖英旭, 杨石松, 周明
2022, 48(2): 311-323. doi: 10.13700/j.bh.1001-5965.2020.0557
摘要:

随着智能电网的普及和大数据技术的发展,利用用电数据分析用户的用电行为越来越受到关注,现存的能源分解方法无法满足实际应用中对分辨率和分解准确率的高要求,以及聚类分析方法过于粗糙没有充分挖掘每类电器的用电特点。提出了基于能源分解的用户用电行为分析方法。在判别式稀疏编码算法模型的基础上,针对L0正则项不易求解、L1正则项稀疏约束效果不理想的问题,提出用L1/2正则项稀疏约束进行能源分解,并且把用户之间的同质性作为正则项加入基础模型来修正模型的性能。基于能源分解的结果,使用用户单类电器的用电特征代替总用电特征精细化分析用户的用电行为,并改进传统的K-Mean聚类算法进行实验验证。实验结果表明:所提出的基于L1/2正则项稀疏约束和同质性约束的能源分解方法相比于传统判别式稀疏编码算法,能够有效提升能源分解的准确率。同时,基于能源分解的用户用电行为聚类分析效果也有明显提升。

面向智能电网嵌入式设备的网络威胁动态评估方法
吕卓, 郭志民, 陈岑, 莫坚松, 常朝稳
2022, 48(2): 324-330. doi: 10.13700/j.bh.1001-5965.2020.0398
摘要:

针对智能电网嵌入式设备由于计算、存储资源有限而造成的对网络攻击行为应对不足,安全评估手段薄弱等问题,提出了面向智能电网嵌入式设备的网络攻击行为动态评估方法。使用安全控制模块对实际嵌入式设备通信数据流进行解析与判别,利用组件动态可信度量分析方法在嵌入式系统模拟机中对攻击行为安全影响进行安全检测评估,通过对平台配置属性、平台运行属性及用户认证属性3个方面属性进行全过程动态综合度量,得出最终网络攻击行为安全评估结果。通过在配电自动化及用电信息采集系统真实环境下进行测试,针对嵌入式设备常见的攻击行为,检测方法的准确率能够达到90%以上,具备较好的安全评估精度,与此同时实现了自身安全性的有效提升。

基于LIME的恶意代码对抗样本生成技术
黄天波, 李成扬, 刘永志, 李燈辉, 文伟平
2022, 48(2): 331-338. doi: 10.13700/j.bh.1001-5965.2020.0397
摘要:

基于机器学习检测恶意代码技术的研究和分析,针对机器学习模型对抗样本的生成提出一种基于模型无关的局部可解释(LIME)的黑盒对抗样本生成方法。该方法可以对任意黑盒的恶意代码分类器生成对抗样本,绕过机器学习模型检测。使用简单模型模拟目标分类器的局部表现,获取特征权重;通过扰动算法生成扰动,根据生成的扰动对原恶意代码进行修改后生成对抗样本;基于2015年微软公布的常见恶意样本数据集和收集的来自50多个供应商的良性样本数据对所提方法进行实验,参照常见恶意代码分类器实现了18个基于不同算法或特征的目标分类器,使用所提方法对目标分类器进行攻击,使分类器的真阳性率均降低到接近0。此外,对MalGAN和ZOO两个先进的黑盒对抗样本生成方法与所提方法进行对比,实验结果表明:所提方法能够有效生成对抗样本,且方法本身具有适用范围广泛、能灵活控制扰动和健全性的优点。

一种基于攻击距离的对抗样本攻击组筛选方法
刘洪毅, 方宇彤, 文伟平
2022, 48(2): 339-347. doi: 10.13700/j.bh.1001-5965.2020.0529
摘要:

黑盒对抗样本生成过程中通常会指定1个攻击组,包括1个原始样本和1个目标样本,使得生成的对抗样本与原始样本范数差别不大,但被分类器识别为目标样本的分类。针对攻击组的攻击难度不同导致攻击不稳定的问题,以图像识别领域为例,设计了基于决策边界长度的攻击距离度量方法,为攻击组的攻击难易程度提供了度量方法。在此基础上,设计了基于攻击距离的对抗样本攻击组筛选方法,在攻击开始前就筛去难以攻击的攻击组,从而实现在不修改攻击算法的前提下,提升攻击效果。实验表明:相比于筛选前的攻击组,筛选后的攻击组的总体效果提升了42.07%,攻击效率提升了24.99%,方差降低了76.23%。利用攻击组的对抗样本生成方法在攻击前先进行攻击组筛选,可以稳定并提高攻击效果。

基于抽象汇编指令的恶意软件家族分类方法
李玉, 罗森林, 郝靖伟, 潘丽敏
2022, 48(2): 348-355. doi: 10.13700/j.bh.1001-5965.2020.0568
摘要:

恶意软件变体的大量出现对网络安全造成巨大威胁。针对基于汇编指令的恶意软件家族分类方法中,操作数语义与运行环境密切相关而难以提取,导致指令语义缺失,难以正确分类恶意软件变体的问题。提出了一种基于抽象汇编指令的恶意软件家族分类方法。通过抽象出操作数类型重构指令,使操作数语义脱离运行环境的约束;利用词注意力机制与双向门循环单元(Bi-GRU)构建指令嵌入网络以捕获指令行为语义,并结合双向循环神经网络(Bi-RNN)学习恶意软件家族共性指令序列,以减小变体技术对指令序列的干扰;融合原始指令和家族共性指令序列构建特征图像,并通过卷积神经网络实现恶意软件家族分类。公开数据集上的实验结果表明:所提方法能够有效提取操作数信息,抵抗恶意软件变体中无关指令的干扰,实现恶意软件变体的家族分类。

基于关键字的海报自动合成系统
关帅鹏, 于海阳, 杨震, 周明, 赖英旭
2022, 48(2): 356-368. doi: 10.13700/j.bh.1001-5965.2020.0552
摘要:

智能化的普及对图像编辑提出了新需求,海报作为一种以图像形式传递信息的方式,在日常生活和工作管理中起着重要的作用。海报的制作需要多元素图像进行合成,目前缺少一种交互式的、一键式的图像合成系统,因此,结合当前流行的图像处理技术,设计并实现了一款海报自动合成系统。提出了一种基于关键字的图像检索方案,构建基于文本和内容的双重过滤方案,为用户提供精准快捷的图像检索手段;通过对大量精心设计的海报图像统计构图规律并引入美学常识的构图规则,提出了一种基于双向规则的人像布局推荐方案;在双向规则的共同作用下辅助用户进行人像布局设计。实验结果表明:所提方案能够稳定高效地运行,用户能够通过简单的交互操作实现图像合成,最终图像合成的效果真实有效。

常见问答