首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

2.
本文借用语音识别技术读取用户输入口令,对用户口令和机器指令分别进行分词处理并建立字典向量,字典向量都以用户口令中的文字作为键所以具有相同的维度,在向量的基础上对用户口令和机器指令进行夹角余弦计算以实现对机器指令的第一次打分;第二次打分则是在第一次打分的基础上进行,因为如果当用户口令和机器指令在所包含文字上已经相似,则有必要对文字的排列顺序做一个考察。本文通过提取用户口令中文字的关系对并与机器指令相比较的方式对机器指令进行一个顺序打分,最终挑选出文字与排序都与用户口令最相似的机器指令。  相似文献   

3.
随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。  相似文献   

4.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

5.
随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒  相似文献   

6.
基于事件的文本相似度计算   总被引:2,自引:0,他引:2  
大量研究成果已经表明,事件在很多文本中是客观存在的.从语义的角度理解,诸多文本是由事件组成的,事件是文本表示的最小语义单位.给出了基于事件的文本表示模型,在此模型的基础上,从文本类型相似度计算和文本内容相似度计算两个层面论述了文本相似度计算的方法.  相似文献   

7.
针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。  相似文献   

8.
提出了一种基于改进堆叠自动编码器提取低维度句子特征的方法,同时采用自动编码器的降噪技术以增加鲁棒性和表达能力。接着用提取的特征计算文本间句子的相似度并组成相似矩阵,用对应的文本生成文本特征矩阵,然后分别通过对应的深度卷积网络训练并提取特征。最后用特征融合技术将两个深度卷积网络提取的特征融合,经全连接的多层感知机计算相似度。实验结果证明,提出的方法能够表达句子的语义特征和文本的上下文特征,有效提高文本相似度计算的准确度。  相似文献   

9.
对链接算法在搜索引擎检索结果排序中的应用进行研究,提出基于Page Rank和锚文本对检索结果进行二次排序,合理评价网页重要程度.实验结果表明,该方法在一定程度上能提高检索效果.  相似文献   

10.
概念相似度研究是知识表示以及信息检索领域中的一个重要内容。根据概念之间错综复杂的关系,可将本体结构看成一个有向无环图。从多个角度出发考虑各种影响有向边权重的因素,通过计算有向边在本体层次图中的相对重要性计算本体中任意两概念的语义距离,由此得到它们的语义相似度。实验结果表明:该方法具有很高的效率。  相似文献   

11.
基于语义理解的文本相似度算法   总被引:26,自引:0,他引:26  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高.  相似文献   

12.
基于动态特征词的中文句子相似度计算   总被引:2,自引:0,他引:2  
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

13.
基于中文WordNet的中英文词语相似度计算   总被引:3,自引:0,他引:3  
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法,所得结果比较符合人们对词语的理解.  相似文献   

14.
基于细粒度依存关系的中文长句相似度计算   总被引:1,自引:0,他引:1  
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。  相似文献   

15.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

16.
目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准确度的缺点,提出新的文本案例相似度计算方法。方法将文本表示粒度由词提高到句子,加入词序信息。结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法。结论这种方法更符合人类理解的模式,提高了文本案例相似度计算的准确度。  相似文献   

17.
18.
句子相似度计算是自然语言处理领域中比较重要的研究课题,有着非常广泛的应用,直接决定某些领域的发展。本文介绍了中文句子相似度计算存在的特点和难点,分析了当前常用的中文句子相似度计算方法的优点以及存在的问题。  相似文献   

19.
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency, PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency, SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。  相似文献   

20.
对于中文文本分类问题,使用了一种新的RBF神经网络算法.这一方法通过高斯径向基函数,使用k均值推导出隐藏项的中心点及宽度,并将由隐藏层得到的输出结果合并起来,从而得到分类结果.试验证明,这种算法的准确率、召回率、F测量的值都很高,得到的分类效果很好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号