首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

2.
句子相似度计算是智能答疑等应用领域的关键技术之一,当前相似度计算方法大都对语义因素考虑不全,使得计算的结果准确度差,为此提出了一种混合型句子语义相似度计算方法。首先,通过语义资源得到词间语义相似度;其次,以词之间的相似度为基础,结合词的权重和句型的相似度得到了混合的句子间的语义相似度,避免了单一角度度量相似度带来的偏差;最后,通过对比实验验证了本文提出的混合型计算方法相对传统方法获得了更好的测试结果。  相似文献   

3.
句子相似度计算是自然语言处理领域中比较重要的研究课题,有着非常广泛的应用,直接决定某些领域的发展。本文介绍了中文句子相似度计算存在的特点和难点,分析了当前常用的中文句子相似度计算方法的优点以及存在的问题。  相似文献   

4.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

5.
基于细粒度依存关系的中文长句相似度计算   总被引:1,自引:0,他引:1  
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。  相似文献   

6.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

7.
基于中文WordNet的中英文词语相似度计算   总被引:3,自引:0,他引:3  
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法,所得结果比较符合人们对词语的理解.  相似文献   

8.
信息检索模块是自动问答系统中的主要组成部分.实现问题检索的关键问题是句子相似度计算问题.提出的基于特定领域的加权语义相似度算法,首先计算FAQ库中某问句关键词的权重,再利用语义相似度方法,分别计算目标问句各分词与FAQ库问句关键词的相似度矩阵,最后求得2个句子的最终相似度.逐一计算和比较目标问句与FAQ中每个问句的相似度,在大于一定阈值时,最大相似度所对应问句答案输出给用户.由于考虑词语语义和权重2方面信息,实验表明其具有较好的匹配效果.  相似文献   

9.
刘炜  李明  杨合立 《甘肃科技》2011,27(22):42-45
基于前人在TDT中对语义矢量的相似性计算研究,以及本体和语法结构在文本相似性研究方面的应用成果,提出了以词频分析作为辅助手段,将新闻中的关键要素归纳为时间、空间、参与事件的主客体、行为等几个语义类;借助WordNet与本体技术计算文档特征词的相似度,并且结合文本的语法结构特点,共同应用于文本的相似度计算,并以此作为新事件检测中相似度计算的基础,提高新事件检测的准确性。  相似文献   

10.
提出了一种中文问句语义相似度计算的新方法.该方法分为两步:第一步采用基于问句句型模板规则匹配的方法提取问句语义表征;第二步根据问句语义表征计算问句语义相似度.采用该方法开发了一个面向常问问题集(FAQ)的问答系统.实验结果表明,采用该方法获得的相似度计算的准确率约为85%.  相似文献   

11.
首先简单介绍了基于《知网》的词语相似度的计算,指出不足,并对其进行改进,在其计算过程中增加词语褒贬倾向因素.接着给出句子相似度计算步骤:①先分词;②采用匈牙利算法求解最优匹配词语;③用改进的方法计算词语相似度,进而求解句子相似度.最后给出实验结果.结果表明:在词语相似度的计算上考虑其褒贬倾向,将会使计算结果更加合理.  相似文献   

12.
李仲生  王家琴 《科学技术与工程》2007,7(10):2396-23982411
针对本体对其上层概念进行了具体划分,单纯地计算概念间语义相似度不能满足实际应用需求的问题。提出一种基于本体底层概念间相似度计算上层概念间相似度的方法;该方法通过比较底层概念间相似度获得初始上层概念间相似度,然后结合影响概念间相似度的密度系数,完成上层概念间相似度计算。实验结果表明了该方法有效。  相似文献   

13.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

14.
语义相似计算驱动领域自动问答   总被引:3,自引:0,他引:3  
研究实体相似性的认知心理特征和受限领域自动问答(QA)系统的形式特点.基于结构对齐和几何相似模型,把词语概念描述分解为属性部分和语义角色部分,各部分结构分别对齐后,计算对齐义原的关系距离,加权组合计算词语的相似度.该方法也适用于解析成语义向量表示的疑问句的相似度计算.融合通用本体、领域本体和领域知识文本,构造了支持语义计算求解某一银行QA问题的知识库.实验表明,该方法可以提高领域QA系统的用户满意度.  相似文献   

15.
为提高信息检索中检索结果的查准率,提出了基于句法分析以及带权路径长度的句子相似度计算方法。该方法首先对用户问句进行了分词、词性标注以及句法分析处理,并根据处理后的结果对该句进行了关键词提取、加权和同义词近义词扩展处理。然后提出了基于带权路径长度计算的方法,并用该方法计算用户问句与检索信息标题句之间的相似度,即问句的带权路径长度与标题句的带权路径长度的相对比值,以此对检索结果进行二次排序,提高检索结果查准率。实验表明,该句子相似度方法能有效地提高信息检索中检索结果的查准率。  相似文献   

16.
基于语义的模糊匹配探索与应用   总被引:8,自引:0,他引:8  
提出了计算词与词之间的相似度,通过比较词语相似度来确定搜索到的信息是否属于某一类特定信息,从而实现基于语义的模糊匹配。实验结果表明,该方法较传统的精确匹配方法、模糊串匹配方法能更好地保存有用信息,提高了过滤结果的完整性和准确性。  相似文献   

17.
提出了基于知网概念特征的文本综述方法,探讨了语句相似度计算、主题区域发现、新颖度获取和综述生成等关键技术.通过对知网的改造,获取了关键词的概念特征,实现了同义词概念扩充,在文档语义相关性基础上,实现了多文档的自动综述.采用一种基于综合评价理论的文本综述评价方法,从综述的表达质量、表述内容和基于Q8LA的信息性评价三个方面实现了对综述的评价.实验结果表明该方法有效可行.  相似文献   

18.
In Chinese question answering system, because there is more semantic relation in questions than that in query words, the precision can be improved by expanding query while using natural language questions to retrieve documents. This paper proposes a new approach to query expansion based on semantics and statistics Firstly automatic relevance feedback method is used to generate a candidate expansion word set. Then the expanded query words are selected from the set based on the semantic similarity and seman- tic relevancy between the candidate words and the original words. Experiments show the new approach is effective for Web retrieval and out-performs the conventional expansion approaches.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号