首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.  相似文献   

2.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

3.
针对漏洞检测领域面临的实验平台不统一、数据集异构等问题,研究词向量模型在C/C++函数漏洞检测方面的应用.用5种词向量模型对源代码生成的抽象语法树结构进行知识表示,用6种神经网络模型进行漏洞检测,实验结果表明,函数级代码具有浅层的语义关系,代码块内部联系紧密.  相似文献   

4.
给出了一种针对大量新闻数据的话题检测方法.首先通过LDA(latent dirichlet allocation)模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理地体现新闻主题特征.然后改进OPTICS(ordering point to identify the cluster structure)密度聚类算法,基于新闻话题的时间延续性给出了T-OPTICS算法.该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响.改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性.基于TDT4数据集的实验表明,该方法能够快速有效地发现新闻中的话题.  相似文献   

5.
基于狄利克雷过程混合模型(DPMM)这一非参数贝叶斯生成模型,从语义的角度入手,结合其自动确定聚类个数的特性进行话题检测,运用了聚类个数K值由大到小变化的采样策略,通过逐层递进的形式获取到较为准确的K值,并在此基础上对语义聚类的词频特性加以分析,引入一组名词实体作为热点特征词来引导聚类过程,从而给出了DPMM半监督模型.实验结果表明,所给出的话题检测方法在TDT4语料上取得了较好的检测性能.  相似文献   

6.
基于词向量的情感新词发现方法   总被引:1,自引:0,他引:1  
词语级的情感倾向性分析一直是文本情感计算领域的热点研究方向,如何自动识别情感新词,并判断其情感倾向性已经成为当前亟待解决的问题。首先用基于统计量的方法识别微博语料中的新词,然后利用神经网络去训练语料中词语的词向量,从语料自身挖掘出词与词之间的相关性,最后提出了基于词向量的情感新词发现方法。实验表明该方法可以有效应用于情感新词发现。  相似文献   

7.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

8.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

9.
近年来关于主观性文本情感分析的研究较热,但对于客观性文本的情感研究很少,因此文章以具有客观性的新闻标题的情感分类为研究点,并提出了多输入通道卷积神经网络(MIC-CNN)以适应此研究问题。网络在输入层以整句,前半句,后半句构成三个输入通道,接着对每个输入通道卷积,然后以不同权重把各尺寸卷积结果相加,接着对每个尺寸使用最大池化并拼接以形成最后的情感特征向量,最后使用softmax进行文本情感分类。实验结果表明:经过超参数的调整MIC-CNN分类精确率平均达到86%以上,比普通的卷积神经网络(CNN)提高了2%~3%。另外,CNN类方法比普通的机器学习方法更有效。  相似文献   

10.
随着电子邮件的广泛使用,垃圾邮件问题也日益严峻.基于邮件内容的过滤是当前解决垃圾邮件问题的主流技术之一.提出了一种基于带有模糊隶属度的模糊支持向量机对中文垃圾邮件过滤的方法,同时,为解决FSVM中隶属度函数的确定问题,使用了一种改进的基于类中心的隶属度函数设计方法.通过实验,使用FS-VM对垃圾邮件过滤能够取得较好的效果.  相似文献   

11.
针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式.在此基础上,构造了改进后的动态突发性向量空间模型,并用于网络中突发性热点话题的发现与追踪.实例验证结果表明,文章提出的改进方法能够获得很好的准确度P、召回率R和F度量.  相似文献   

12.
针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式.在此基础上,构造了改进后的动态突发性向量空间模型,并用于网络中突发性热点话题的发现与追踪.实例验证结果表明,文章提出的改进方法能够获得很好的准确度P、召回率R和F度量.  相似文献   

13.
针对俄文新闻文本的话题检测问题,以俄文文本的自动形态分析、命名实体识别作为辅助手段,设计了一种基于本体描述俄文新闻文本和话题信息并进行相似度计算的方法,随后使用Single-pass算法进行俄文文本的话题检测实验。通过对比基于向量空间模型和基于本体模型的俄文话题检测结果,证明了后者具有相对较高的准确性和有效性。  相似文献   

14.
在中文文本信息中,同一个语义往往有多种不同的表达方法,不同的个体对同一个词语理解也会有一定的偏差,这将导致在信息检索时,出现查询项与检索数据词不匹配的问题.虽然,模糊检索是改善这一问题的有效方法之一,但仅仅利用已知信息进行模糊检索,已不能满足充斥着大规模无标定文本信息的网络时代的检索需要.提出一个基于词向量的模糊检索查询扩展方法,通过词向量计算查询项的相似词,进而进行查询项扩展.相比与传统的模糊检索方法,在同一测试集中,基于词向量的模糊查询扩展方法测评出的查全率、查准率以及两者的调和平均数均得到了有效提升.  相似文献   

15.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

16.
提出依存关系规则与统计方法相结合,实现了基于依存关系与支持向量机的问题分类机制.实验结果表明,支持向量机结合依存关系的特征抽取方法,能获得较高问句分类正确率.  相似文献   

17.
基于文档指纹的中文复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。  相似文献   

18.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

19.
基于领域知识和词向量的词义消歧方法   总被引:3,自引:0,他引:3  
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。  相似文献   

20.
通过构造结构化函数ψ(x,y),提出一种基于结构化支持向量机(SVM-Struct)的中文句法分析方法.实验结果表明,与经典的概率上下文无关文法(PCFG)相比,文章提出的方法在中文句法分析方面是十分有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号