期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《中南大学学报(自然科学版)》2015,(6)

为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。相似文献

2.

基于关键词提取的娱乐新闻文档去重算法 总被引：2，自引：2，他引：0

沙芸张国英孟凡亮《广西师范大学学报(自然科学版)》2007,25(2):30-33

去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%～30%. 相似文献

3.

神经模型在超文档检索中的应用

下载免费PDF全文

覃健文《广西科学》1995,2(3):24-27

介绍“轴Ｋ－平均算法”在文档检索中的应用。利用数值分析的方法,先把文档分为各主题,然后对主题里的文档和关键词进行排序形成半轴．由此可得到全局的主题轴和局部主题轴,通过它们,读者就可以查到所需的信息。相似文献

4.

基于优化层次聚类的文档逻辑结构抽取 总被引：1，自引：0，他引：1

张阔徐鹏李涓子王克宏《清华大学学报(自然科学版)》2005,45(4):471-474

半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。相似文献

5.

基于LSSWM模型的交并式动态扩展聚类算法

陈晓云王步钰马友忠孙辉《广西师范大学学报(自然科学版)》2007,25(2):135-139

为获取Web上中文人物的精确信息,特别是同名人的分辨,提出了一种基于LSSWM模型的交并式动态扩展聚类算法。通过构建中心词库,对每篇文档建立基于中心距离、中心段、篇章长度等潜在语义信息的语句-词条矩阵LSSWM,利用交并式动态扩展聚类算法,对相似文档进行聚类。实验表明,该算法在保持人物语义信息的连贯性、突出不同位置语义信息重要性的同时,对文档的聚类有较高的准确性。相似文献

6.

基于聚类和用户点击的在线多样化排序算法

林古立马千里《华南理工大学学报(自然科学版)》2011,(12):70-74,99

在互联网信息检索中,多样化排序方法力求在排序结果列表靠前的位置为用户提供多样的结果文档.文中提出一种基于聚类和用户点击的在线多样化排序算法CRBA,通过结合文档的相似性以及用户的点击反馈,在与用户的不断交互中为用户提供多样化的排序结果.该算法将在线和离线的思想进行融合,既可以利用主题聚类的优点,根据主题对候选文档集合进... 相似文献

7.

基于改进Single-Pass算法的网络新闻话题发现

孙红光高星孙铁利杨凤芹彭杨冯国忠《吉林大学学报(理学版)》2018,56(1):114-118

通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性. 相似文献

8.

中文新闻关键事件的主题句识别 总被引：2，自引：0，他引：2

王伟赵东岩赵伟《北京大学学报(自然科学版)》2011,47(5):789-796

提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。相似文献

9.

基于领域本体的文档自动摘要算法 总被引：1，自引：0，他引：1

王麒江开忠杨静顾君忠《华东师范大学学报(自然科学版)》2007,2007(5):107-112

介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量. 相似文献

10.

Web文档知识树设计及实现

蒋作杨帆《云南民族大学学报(自然科学版)》2012,21(2):145-149

分析了Web文档的结构特征,并利用知识树快速高效等特征,设计了Web文档知识树;基于Web文档知识树结构,提出了构建Web文档知识树的构造算法、创建知识结点算法以及知识树访问算法.并对上述算法作了分析和评价,说明了这些算法对提高Web信息检索的准确率以及信息查找的速度是有益的. 相似文献

11.

基于多中心模型的网络热点话题发现算法 总被引：1，自引：0，他引：1

王巍杨武齐海凤《南京理工大学学报(自然科学版)》2009,33(4)

为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型.将报道内容之间的关联关系层次化,提高了对网络话题的描述能力.提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销.实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现. 相似文献

12.

基于语义相似聚合的主题爬虫算法研究

吴林王永滨《中国传媒大学学报》2018,25(1):28-31

互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率. 相似文献

13.

基于内容分析的报道关系识别方法研究

王凤玲《西藏大学学报》2012,(2):71-75,87

话题检测与跟踪是当前自然语言处理领域的一个研究热点,而报道关系识别是其中的一项基础研究内容。为了得到高性能的报道关系识别算法,必须充分挖掘新闻报道中包含的信息。文章在分析了英语新闻报道书写特点的基础上,提出了基于内容分析的报道关系识别算法,算法中将新闻报道表示成两个向量空间模型。实验结果表明,文章提出的基于内容分析的报道关系识别算法不但简单易行,并能大大改进报道关系识别的性能。相似文献

14.

基于概率主题模型的京津冀协同发展研究主题演化分析

赵&#; 杰李海峰李纯果《科学技术与工程》2019,19(36):225-234

京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009～2019年中国知网收录的14 235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。相似文献

15.

基于FIFA的主题相似性计算模型 总被引：2，自引：0，他引：2

朱靖波陈文亮《东北大学学报(自然科学版)》2003,24(11):1041-1044

针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主题是否一致·首先采用FIFA模型进行内容主题识别,然后采用LDM模型进行事件主题相似性计算分析·实验结果显示主题相似性计算正确率为64%,召回率为69%· 相似文献

16.

基于优选链接的中文网页分类方法研究

陈胜荣董守斌《郑州大学学报(理学版)》2007,39(2):78-82

网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高. 相似文献

17.

A New Generalized Similarity-Based Topic Distillation Algorithm

ZHOU Hongfang DANG Xiaohui 《武汉大学学报:自然科学英文版》2007,12(5):789-792

The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA（generalized similarity based topic distillation algorithm） was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS（hypertext induced topic search） algorithm, and discovers several relative topics to queries that have multiple meanings. 相似文献

18.

基于层叠模型的话题检测方法研究

谢林燕张素香戚银城《郑州大学学报(理学版)》2012,(2):43-47

针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法. 相似文献

19.

动态组织学习能力与企业竞争战略研究 ——一个基于全球价值链分解模型的分析框架

吴福象王新新《科技与经济》2012,25(3):1-5

在梳理核心能力与竞争优势的演化路径时发现,二者在逻辑上一脉相承,并以动态组织学习能力为中心环节.基于企业的竞争优势主要体现为其核心竞争力的深层次思考,构建了一个基于动态组织学习能力的国际垂直分工价值链分解模型.利用该模型的分析框架得出,企业主动融入国际战略外包的价值链垂直分工体系并重视企业自主技术创新是企业再造竞争优势的战略选择. 相似文献