首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 183 毫秒
1.
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。  相似文献   

2.
在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性.  相似文献   

3.
评价论文影响力是科学计量学领域的重要内容.科学引文网反应了论文之间的相互引用关系.本文基于H指数的思想对于评价论文影响力提出"H算法",进而提出改进后的"H+算法"用以解决H算法简并度高的问题.把算法应用在美国物理学会(APS)提供的科学引文网中,实验结果表明,两种算法计算出的评价指标呈现高端幂律分布.这两种算法比PageRank算法的时间复杂度都要低;在评价优秀论文方面的表现上,"H算法"准确率优于PageRank算法.  相似文献   

4.
为辅助游客通过旅游网站进行酒店选择,提出了一种基于旅游网站提供的备选酒店特征信息和在线评价信息的酒店选择方法.首先,基于酒店特征信息和在线评价信息构建备选酒店有向加权图,依据备选酒店特征信息,基于离差最大化法对酒店特征进行客观赋权,并采用简单加权法确定有向加权图结点权重,依据备选酒店间在线评价信息的比较关系确定有向加权图的有向边及有向边权重;然后,基于PageRank算法原理给出备选酒店排序值求解算法;最后,以基于缤客网站提供的酒店特征信息和在线评价信息进行酒店选择.结果说明了提出方法的有效性和可行性.  相似文献   

5.
对当前禁毒情报分析中群聊文本信息应用少的问题,将PageRank算法和关系网络相结合,提出一种ARPR算法。该算法采用TF-IDF方法提取群聊人员的群聊涉毒关键词,并对涉毒关键词在涉毒嫌疑程度排序中的贡献进行度量;然后以层次分析法引导聚合各维度信息计算得到的嫌疑人员权重为权重系数,以好友关系为链接建立关系网络作为PageRank的入度与出度来计算相对应的PageRank权值。ARPR算法利用涉毒情报中无痕入群获取的群聊文本及关系,充分考虑禁毒领域的业务需求,使情报分析人员能够根据涉毒嫌疑度排序选择重点嫌疑人员。该算法突破了传统PageRank算法的局限性,解决了网页权值均分、主题漂移等问题,具有较好的涉毒嫌疑度排序效果,从而为及时发现涉毒人员提供了途径。  相似文献   

6.
为改善影响因子在期刊评价中的不足,基于PageRank算法给出一种期刊影响因子的修正方法.首先,建立期刊之间的互引网络矩阵计算PageRank值(简称PR值),并在期刊互引网络中利用各期刊载文当年的影响因子对被引次数进行加权以反映期刊质量,然后修正期刊自引数量,在此基础上构建基于PageRank算法的影响因子(简称WIF_PR因子),并以图书情报领域中43种期刊为实证对象,利用WIF_PR因子进行期刊评价.结果发现:WIF_PR因子能科学地考虑期刊自引数量、区分不同期刊被引质量,与影响因子、h指数相比,新评价方法评价效果更可靠.  相似文献   

7.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

8.
传统的查询扩展技术大都依据单个查询词的相关性来扩展查询词,忽略了查询词之间的相关性以及查询扩展词的不同重要程度,使得扩展效果不佳。针对此问题,提出了一种基于PageRank算法的查询扩展模型,该模型在Markov网络检索模型的基础上,从查询本身出发,将所有与查询相关的词组成Markov查询关联子网,在此子网上应用PageRank算法来计算候选扩展词的权重,由权重序来确定扩展词的选取,排名前列的扩展词进入检索阶段,消除噪音,提高检索效率。在标准数据集上的实验结果表明,本文提出的模型能有效地改善检索效果。  相似文献   

9.
考虑旅行社在选择合作酒店时会关注备选酒店的需求信息和电子口碑的发展趋势,提出一种考虑这两类信息的酒店合作伙伴选择方法.首先基于备选酒店需求和电子口碑信息构建有向加权图,具体地,依据备选酒店的需求信息确定有向加权图节点权重,并给出一种考虑备选酒店电子口碑横向、纵向发展趋势的权重修正系数,用来计算时间权重,在此基础上,采用TOWGA算子计算备选酒店的电子口碑评价值,并依据评价值进行两两酒店比较来确定有向边及其权重;然后基于PageRank算法求解各备选酒店的排序值;最后通过一个实例分析说明本文提出方法的可行性和有效性.  相似文献   

10.
文档级别情感分类的目的在于预测用户对评论文本的情感倾向.目前大部分工作只关注于文档的内容而忽视了用户信息和评价对象信息.事实上,不同的用户在表达情感时选词存在着差异,并且对同一产品不同属性的关注度也会有所不同;不同的词汇在描述不同的评价对象时,也会有着不同的情感倾向性.为了能同时考虑用户和评价对象,提出了一个基于用户和评价对象的层次化注意力网络(hierarchical user aspect attention networks,HUAAN)模型.该模型首先用一个层次化的结构编码各类信息(包括词汇、句子、评价对象、文档),然后引入基于用户和评价对象的注意力机制来建模这两类信息.为了验证HUAAN模型的有效性,在两个真实的数据集上进行实验,结果表明在融入这两类信息之后,HUAAN在同等条件下比NSC+UPA系统的准确率高.  相似文献   

11.
PageRank-Pro: 一种改进的网页排序算法   总被引:9,自引:1,他引:8  
根据网页点击信息改进了原有的PageRank算法, 利用Seidel迭代算法加快了迭代收敛 过程. 实验结果表明, 改进后的迭代算法效率提高23%左右.  相似文献   

12.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

13.
提出了将微博用户发言与单词间的链接构成一个二部图,然后将其转换成加权的用户发言网络结构图,并采用PageRank的排名方式,提取其中的重要内容。实验结果表明,该方法可以明显增强微博内容搜索的准确性。  相似文献   

14.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

15.
融入链接相关度策略的PageRank算法   总被引:1,自引:0,他引:1  
为实现对网页更好地评分,提出了融入链接相关度策略的PageRank算法.以体现人工智能的当代经典PageRank算法为基础,分析其基本思想并指出其在对网页评分中存在的不足,通过引入相关度计算使链接标题的质量和其所指向网页的内容产生联系,实现在网页中各个链接之间的竞争.通过实验和分析,新的算法在不影响原算法的优点和效率的同时能更好地进行网页评分,在网页优先级算法上向人工智能和语义网又迈进了一步.  相似文献   

16.
为了提高显著性检测算法的准确性与鲁棒性,提出了一种基于多尺度融合的对象显著性检测方法.首先对图像进行平滑处理,过滤掉图像中的高频噪声特征,然后对图像进行尺度划分并分别采用不同的方法对不同尺度上的图像检测其显著性,最后根据条件随机场理论对不同尺度上的显著性检测结果进行加权融合,得到最终的显著性检测结果.在两种公共数据集上与多种经典算法进行定性、量化比较,结果表明该算法具有更好的表现.  相似文献   

17.
为了全面评估合成孔径雷达(syn thes is apertureradar,SAR)实时成像处理器的性能,该文将现有的SAR成像处理器的结构分为串行结构、并行结构和混合结构,提出加速比,吞吐量,有效利用率等有效的系统结构指标及其计算方法,并结合成像质量指标,用于系统性能的全面评估。对采用Ch irp Sca ling算法的某星载SAR并行结构和串行结构实时成像处理器的指标分析表明:在相同的成像质量指标下,并行结构的系统性能指标明显优于串行结构。基于该文提出的成像质量指标和系统结构指标相结合的评估体系,可以全面评估和优化SAR成像处理器的设计。  相似文献   

18.
王福海 《科技信息》2011,(15):J0077-J0077,J0227
对通用搜索引擎中的PageRank排序算法进行分析,针对原PageRank算法中主题漂移问题,提出一种与主题相关的改进算法,改进的PageRank值由链接重要性和内容重要性共同确定。  相似文献   

19.
本文在介绍Google等搜索引擎最常用的PageRank搜索结果排名算法的基础上,提出了一种针对PageRank算法的搜索引擎优化方法,设计并用Java技术实现了一个采用此方法的搜索引擎优化工具。  相似文献   

20.
提出了一种加权块Arnoldi方法求解PageRank问题.为了加快算法的收敛速度,采用子空间迭代法作为加速策略.数值实验结果表明,当阻尼因子。靠近1时,提出的加速加权块Arnoldi算法比现有的一些Krylov子空间方法优越.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号