首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签...  相似文献   

2.
Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.  相似文献   

3.
朱文凤 《科技信息》2013,(16):185-185
不同的文本类型有不同的翻译方法,广告文本译文如果要实现其呼唤功能,应该要贴近英文广告的语言特征,符合英文广告的行文模式,并能够发挥译语的优势,从而使译文读者能被广告所打动,从而产生消费行为。  相似文献   

4.
针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.  相似文献   

5.
文本的形态体现于文本的形式特征,以严谨的或宽松的结构模式表现出来。而形成文本必须有其信息、题旨的内容要素和体裁、表达方式、结构模式等的形式要素。适宜的形态和要素,是优秀文本产生的前提和条件,正确认识它们,有利于把握写作现象的内外统一,有利于提高写作水平从而创制优秀文本。  相似文献   

6.
王静  将爱德 《科技信息》2009,(16):75-76
本文提出了一种多特征融合的图像特征提取方法,针对彩色图像从颜色特征、纹理特征以及区域形状特征等几个方面抽取特征向量,更多的保留图像的各种信息。并通过实验对本算法进行验证分析,用该方法表示图像特征时,最后的图像区域数是影响特征表示的关键因素,所以图像区域数的确定应该根据情况动态决定。  相似文献   

7.
针对重复缺陷报告检测研究中存在语义长距离依赖以及缺陷报告特征的单一性问题,提出一种强化文本关联语义和多特征提取的重复缺陷报告检测模型。引入自注意力机制捕获缺陷报告文本序列内部的语义关联性,从而动态计算上下文语义向量进行语义分析,解决长距离依赖问题;利用隐含狄利克雷分布算法捕获缺陷报告文本的主题特征,同时针对缺陷报告的类别信息,构建一种特征提取网络计算类别差异特征;最后基于3类特征向量进行综合检测。实验结果表明,该模型实现了更优的检测性能。  相似文献   

8.
基于结构与内容的网页主题信息提取研究   总被引:11,自引:0,他引:11  
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.  相似文献   

9.
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。  相似文献   

10.
在当前信息化的年代里,文本数据在高速的增长,人们获取有用的信息犹如大海捞针.文本聚类作为文本挖掘的基础技术,发挥了很重要的作用.由于缺乏预先定义的类和类标号的训练实例,如何选择合适的数据相似度是文本聚类的关键问题.文章为此提出一种新的衡量文本相似度的方法 Adaptive Metric Selection(AMS).文章通过抓取网页内容,为聚类提供数据来源,分词和向量化是必要的转化,利用特征提取的方法获取特征项,并用Isomap进行降维,最后利用自适应选择方法 AMS对数据进行相似度衡量再进行聚类分析.实验结果表明,AMS明显优于从多种相似度独立进行聚类的平均结果.  相似文献   

11.
层级标签文本分类旨在从具有层级结构的标签集中选择与文本最匹配的标签。现有的文本分类方法,通常使用编码器提取文本特征进行预测,他们忽视了标签语义、标签之间的相关性、文本特征对标签特征的影响。针对以上问题,提出了融合标签结构的层级标签文本分类模型(Label Hierarchical and Semantic Structure Learning,LHSSL)。LHSSL充分利用了标签语义结构与层级结构信息,通过共享参数的图卷积神经网络学习两种结构的相似特征。然后将标签特征与文本特征动态连接,构造标签模拟分布作为soft target。与不考虑标签信息直接使用LSTM、Bert和添加标签平滑后的LSTM、Bert相比,该模型在四个数据集上的准确率都有了一定的提升。  相似文献   

12.
翻唱歌曲识别是音乐信息检索(Music Information Retrieval,MIR)领域最具挑战性的任务之一.为了提高翻唱歌曲识别(Cover Song Identification,CSI)的准确率,研究者提出了多音频特征相似度张量积图融合的翻唱识别模型,但相似度高维空间几何结构的学习大幅度增加了模型的时间复...  相似文献   

13.
在对EEG信号进行深入分析的基础上,将小波、分形和统计三种方法相结合,提出一种多方法融合的EEG信号分类特征提取方法.应用小波对EEG信号去噪,并对去噪重构后的EEG信号进行分解,提取各尺度空间上的平均高频系数作为第一部分EEG分类特征,在多尺度下对去噪重构后EEG信号进行多重分形分析,依据EEG数据的特点和分类的需要,提取相关多重分形谱参数作为第二部分EEG分类特征;根据EEG信号的特点,提取相关统计特征作为第三部分EEG分类特征;针对上述提取特征,使用BP神经网络作为分类器,结合EEG信号的自身特点和分类结果,选择确定最终的EEG分类特征,完成了EEG信号的分类.并通过比较说明了本文方法的优势,提高了EEG分类的精度.  相似文献   

14.
文本情绪多标签分类是一种细粒度的文本情感分析,通过挖掘文本中蕴含的多种情绪信息,为文本分配多种所属的情绪标签。文章提出一种基于标签特征的卷积神经网络(CNN)情绪多标签分类方法,首先利用word2vec模型对文本进行词向量表示,然后利用标签特征来强化文本情绪和标签之间的联系,将其融合于CNN模型中,用于对文本情绪进行深层次的表示和多标签分类。为了验证方法的有效性,选取了CLR和LPLO两个多标签分类方法作为基准方法,在NLPCC2014的中文微博情绪分析数据集进行比较实验。结果表明,使用标签特征的CNN模型,可以提升微博情绪的分类性能。  相似文献   

15.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

16.
医学图像融合能够综合两种不同模态图像的信息,从而帮助医生做出准确的诊断和治疗.利用稀疏表示进行图像的特征提取和融合.首先由原始图像组成联合矩阵,通过K-SVD算法得出这个联合矩阵的冗余字典并求出联合矩阵的稀疏编码;然后将稀疏系数作为图像特征,并采用最大化选择算法合并相对应图像块的稀疏编码;最后通过稀疏编码和冗余字典得到融合图像.与3种流行的融合算法比较,结果表明所提算法在无噪声和有噪声的情况下都具有很好的性能.  相似文献   

17.
随着恶意网页数量的逐年递增,传统恶意网页检测技术表现出了较大的局限性.因而基于机器学习的检测技术被引入,该技术的关键是有效网页特征的选取.在分析提取传统网页特征URL、HTML和JavaScript代码特征的基础上,融合网页文本内容特征(Text特征),基于机器学习提出一种多特征融合的恶意网页检测方法.通过互信息法、F-检验法、递归特征消除法3种特征选择算法验证得到所提Text特征更具强相关性.其中,RF算法在URL、HTML、JavaScript与Text特征的混合特征集上对恶意网页检测的效果最好,该方法与前人工作相比具有更高的准确性与可靠性.  相似文献   

18.
为提高机械故障诊断的准确率,将多个振动传感器采集机械系统不同位置的信息进行融合,提出一种基于同源数据融合的特征提取方法。以柴油机缸盖和机身的振动信号为例,分析振动信号频谱与激励源到测量点的传输特性,构造基于频谱的高维特征向量。使用PCA方法和子带平均法降维,支持向量机进行分类验证其分类效果。结果表明,相比传统单通道传感器,此方法提取的特征不仅具有更高的可压缩性,而且其分类准确性有所提高。  相似文献   

19.
针对图像特征提取无法同时利用样本的全局和局部特征的问题,提出融合全局和局部特征的特征提取方法.该方法充分利用线性判别分析和保局投影算法分别在特征提取中保持样本全局特征和局部特征方面的优势,进一步提高图像特征提取效率.首先,引入全局散度矩阵和局部散度矩阵分别表征样本的全局特征和局部特征.然后,基于同类样本尽可能紧密,异类样本尽可能远离的思想,构造最优化问题.比较实验表明:与传统的主成分分析、线性判别分析、保局投影算法相比,文中方法的工作效率有一定提高.  相似文献   

20.
数字美术馆是美术作品收藏、展示、欣赏、销售及查询的基本组织形式。传统基于文本的图像检索技术只能查询文本信息而无法检索图像本身的内容。基于内容的图像检索技术应运而生。本文结合上述两种检索方式,设计和实现了一种美术作品查询系统,能够满足多元的检索需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号