首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一种词汇共现算法及共现词对检索系统排序的影响   总被引:6,自引:0,他引:6  
为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法--FDC.算法中考虑了词汇在文档中的共现频度、相对距离和共文档率.从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LSI)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果.Discounted cumulative gain(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LSI方法获得的共现词对排序相关性也表现出同样显著的改进效果.结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法.  相似文献   

2.
基于词间语义相关度的搜索结果聚类算法   总被引:1,自引:1,他引:0  
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.  相似文献   

3.
为了提高自动摘要的质量,研究了基于图模型的词句协同排序的自动摘要算法技术.自动摘要试图从原始文本中提取一定数量的重要句子形成节录式摘要,句排序是实现自动摘要的典型手段,已有工作大多通过构建词或句关联网络,再使用PageRank计算节点排序分值,该算法考虑词与句之间的互影响,提出词句协同排序的自动摘要算法,在句关联网络上融入词对句子排序分值的影响,而词的重要性由包含其句子的排序分值所决定.在句排序结果基础上,提出基于冗余度的句选择方法,以进一步提升自动摘要质量.在10篇中文文档上的试验结果表明,较之于单纯的句排序方法,所提出方法能有效提升自动摘要的准确率和召回率.  相似文献   

4.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

5.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

6.
基于本体的文档语义标注改进方法   总被引:2,自引:0,他引:2  
在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签一文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.卖验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.  相似文献   

7.
微博搜索主要是计算文档与查询词之间的相关性,通过统计方法确定词量的权重,再用向量空间模型计算相关度.然而使用词量搜索方法,搜索精度并不高,检测到某条微博的信息含量有限,难以保证用户查询的关注度.针对这一问题,提出基于动态步长的微博搜索排序算法.该算法的主要实现过程:首先对微博已有的特征进行分析,然后用信息熵的方法计算微博信息含量,不使用词量为计算单位,而以词性为单位计算微博的相关度.最后把动态步长加入到List Net排序算法中,并用Armijo-Goldstein准则对步长进行优化.通过仿真实验表明,本算法排序效果更优.  相似文献   

8.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

9.
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。  相似文献   

10.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

11.
藏文框架语义知识语义关系分析的关键就是建立句子中各词语之间的语义关联关系,实现各框架间知识的共享,获取更多的信息.文章引出了藏文框架语义知识、框架及框架元素并结合实例分析了以藏语句子为主,组成该句子的词语或短语间的语义关系及框架形式表示该句子的语义为结构化.  相似文献   

12.
研究构建领域情感本体,显式描述产品与产品部件、产品与产品属性之间的语义关系;设计词性模式匹配方法提取特征词和情感词的固定搭配,并采用评论句的极性标签结合否定词典,逆向推测搭配组合的情感极性,建立特征词与情感词的关联关系;进一步设计本体节点匹配规则进行情感分析,提高对电商网站评论文本情感分析的性能. 实验结果表明,领域情感本体的构建有利于消除情感词的领域依赖性及识别评论中的隐性特征.   相似文献   

13.
针对传统情感分析模型将单词或词语作为单一嵌入,而忽略句子之间依存信息和位置信息的问题,提出基于双向门控机制和层次注意力的方面级情感分析模型(Based on Bi-GRU and Hierarchical Attention,BGHA)。首先,将文本数据转成词向量再加入位置编码信息,得到包含位置和语义信息的词向量后通过双向门控机制提取上下文特征;接着,分别在单词注意力层和句子注意力层用注意力机制对特征分配权重,突出重点词和重点句信息;最后,结合给定的方面信息选择性提取与其较匹配的情感特征。在SemEval 2014、SemEval 2016和Twitter短文本评论数据集上的实验结果表示,BGHA模型的准确率对比其他模型都有不同程度的提高,证明了模型的有效性。  相似文献   

14.
根据微博文本中句子的依存关系和情感词在依存关系中的位置来提取特征,将特征应用于最大熵模型来预测句子的情感倾向(褒义、贬义或中性)。并在此基础上,将词、词性和词在句法结构中的成分作为特征,训练条件随机场统计模型以此预测评价对象。实验结果表明,将句法依存关系作为特征应用到中文微博观点句识别中能够取得不错的效果,明显提高了中文微博观点句的识别率。  相似文献   

15.
从句式本身的使用频率、P项关联词语的使用、语义关系与语义特点和语用及其各种情况的使用频率四个方面比较了“不仅仅P,而是Q”和“不仅P,而且Q”两种句式。认为:它们在以上四个方面都存在明显的差别。尽管在一定条件下,极少数“而且”句和“而是”句存在着相通之处,但是从总体上看,它们是既有联系更有差别的两种句式。  相似文献   

16.
汉语的语句重音作为一种韵律变化,是一种语音现象,同时也是一种语法现象。依据语句的焦点,我们把汉语语句重音分为语义重音和对比重音两大类,分别叙述了两种重音的定义,理清了不同重音类别与汉语句法、语义以及语用之间的逻辑关系,并论证了新分类的正确性。文中对汉语语句重音的重新定位及其分类能够加深我们对相关领域的认识,并对现代汉语教材的编写提供有益的参考。  相似文献   

17.
将句法平面词的词性特征、依存关系、依存关系中的词性特征、邻接依存关系、邻接依存关系中的词性特征与倾向性词汇和倾向性搭配作为支持向量机(SVM)分类器的特征集,以句子为单位对多个领域的文本进行倾向性判断.通过交叉验证的方式,估计出分类器的精度为95.6%.据此提出句子倾向性分析可不以句子倾向性判断为前提.  相似文献   

18.
研究汉语智能输入方法,采用词和句相结合的方式输入汉语的拼音码,采用词法规则,句法模式及语义关联等方法区分同音词,用确定性规则(包括词法规则,离合词规则,词语搭配共现原则和相邻词的约束处理)缩小同音词识别的范围,综合非确定因素,采用评估函数选出最优候选句,应用该系统,输入包含1062个汉字的科技论文,错误率为6%。  相似文献   

19.
主题句是一种把句首的成分年看成是话题加以评说的句型。显然用句子形式作谓语表解释汉语“话题-评论语”型句子构造,是符合汉语的真实情况,也体现了汉语语法的特点,即古汉语虚词的研究应逐渐自觉地把虚词同现的语言结构段紧密地联系起来,由此,词性的标注使义项的划分趋于细密化,并使句法功能标准由隐性变为显性,对义项的划分产生积极的影响。  相似文献   

20.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号