首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。  相似文献   

2.
基于关键词提取的娱乐新闻文档去重算法   总被引:2,自引:2,他引:0  
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%~30%.  相似文献   

3.
覃健文 《广西科学》1995,2(3):24-27
介绍“轴K-平均算法”在文档检索中的应用。利用数值分析的方法,先把文档分为各主题,然后对主题里的文档和关键词进行排序形成半轴.由此可得到全局的主题轴和局部主题轴,通过它们,读者就可以查到所需的信息。  相似文献   

4.
基于优化层次聚类的文档逻辑结构抽取   总被引:1,自引:0,他引:1  
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。  相似文献   

5.
为获取Web上中文人物的精确信息,特别是同名人的分辨,提出了一种基于LSSWM模型的交并式动态扩展聚类算法。通过构建中心词库,对每篇文档建立基于中心距离、中心段、篇章长度等潜在语义信息的语句-词条矩阵LSSWM,利用交并式动态扩展聚类算法,对相似文档进行聚类。实验表明,该算法在保持人物语义信息的连贯性、突出不同位置语义信息重要性的同时,对文档的聚类有较高的准确性。  相似文献   

6.
在互联网信息检索中,多样化排序方法力求在排序结果列表靠前的位置为用户提供多样的结果文档.文中提出一种基于聚类和用户点击的在线多样化排序算法CRBA,通过结合文档的相似性以及用户的点击反馈,在与用户的不断交互中为用户提供多样化的排序结果.该算法将在线和离线的思想进行融合,既可以利用主题聚类的优点,根据主题对候选文档集合进...  相似文献   

7.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

8.
中文新闻关键事件的主题句识别   总被引:2,自引:0,他引:2  
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。  相似文献   

9.
基于领域本体的文档自动摘要算法   总被引:1,自引:0,他引:1  
介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量.  相似文献   

10.
分析了Web文档的结构特征,并利用知识树快速高效等特征,设计了Web文档知识树;基于Web文档知识树结构,提出了构建Web文档知识树的构造算法、创建知识结点算法以及知识树访问算法.并对上述算法作了分析和评价,说明了这些算法对提高Web信息检索的准确率以及信息查找的速度是有益的.  相似文献   

11.
基于多中心模型的网络热点话题发现算法   总被引:1,自引:0,他引:1  
为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型.将报道内容之间的关联关系层次化,提高了对网络话题的描述能力.提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销.实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现.  相似文献   

12.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

13.
话题检测与跟踪是当前自然语言处理领域的一个研究热点,而报道关系识别是其中的一项基础研究内容。为了得到高性能的报道关系识别算法,必须充分挖掘新闻报道中包含的信息。文章在分析了英语新闻报道书写特点的基础上,提出了基于内容分析的报道关系识别算法,算法中将新闻报道表示成两个向量空间模型。实验结果表明,文章提出的基于内容分析的报道关系识别算法不但简单易行,并能大大改进报道关系识别的性能。  相似文献   

14.
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14 235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。  相似文献   

15.
基于FIFA的主题相似性计算模型   总被引:2,自引:0,他引:2  
针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主题是否一致·首先采用FIFA模型进行内容主题识别,然后采用LDM模型进行事件主题相似性计算分析·实验结果显示主题相似性计算正确率为64%,召回率为69%·  相似文献   

16.
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.  相似文献   

17.
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings.  相似文献   

18.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

19.
在梳理核心能力与竞争优势的演化路径时发现,二者在逻辑上一脉相承,并以动态组织学习能力为中心环节.基于企业的竞争优势主要体现为其核心竞争力的深层次思考,构建了一个基于动态组织学习能力的国际垂直分工价值链分解模型.利用该模型的分析框架得出,企业主动融入国际战略外包的价值链垂直分工体系并重视企业自主技术创新是企业再造竞争优势的战略选择.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号