首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于领域本体的文档自动摘要算法   总被引:1,自引:0,他引:1  
介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量.  相似文献   

2.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

3.
为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;然后,依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过改进的最大边缘相关算法合理地选择摘要句,得到最终的多文档摘要。结果表明,与其他方法相比,通过使用深度学习方法并结合分层最大边缘相关算法共同获得的柬语多文档摘要,R1,R2,R3和RL值分别提高了4.31%,5.33%,6.45%和4.26%。基于分层最大边缘相关的柬语多文档抽取式摘要方法在保证摘要句子多样性和差异性的同时,有效提高了柬语多文档摘要的质量。  相似文献   

4.
PDF文档是目前常用的文档格式,本文介绍了一款小巧、简单易用的PDF文档阅读器,说明了其使用方法,并与传统的AdobeAcrobatReader加以比较.  相似文献   

5.
基于多线程UI-Model的远程实时交互教学系统   总被引:1,自引:0,他引:1  
针对远程实时交互系统中亟待解决的交互功能扩充与复用及通用文档共享的问题,提出了多线程UI-Model体系结构,利用用户界面委托层,对传统的UI-Model体系结构进行了改进,实现了远程实时交互教学系统中交互功能的扩充与交互模块的复用;应用基于WebBrowser控件实现了通用文档共享模块,并结合GDI+的应用实现了在文档共享中同步绘图交互的功能.利用多线程UI-Model体系结构设计和实现了一种易扩展、可复用的具有文字、视频、电子白板、文档共享等多种实时交互功能的远程实时交互教学系统.  相似文献   

6.
基于优化层次聚类的文档逻辑结构抽取   总被引:1,自引:0,他引:1  
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。  相似文献   

7.
提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法, 通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类, 同时用交互聚类的方式替代了传统的递归算法. ISTC算法具有语言无关性, 不仅适用于基于单词的西方文字, 而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符. 在此算法基础上, 设计并实现了基于改进后缀树算法的交互聚类引擎, 在不同的网络环境下对其 进行了系统测试, 并与其他元搜索引擎进行了对比. 实验结果表明, 使用改进后缀树算法进 行实时交互式聚类是可行的.  相似文献   

8.
为了解决分布式哈希表(DHT)不支持模糊匹配和查找延迟长等问题,提出使用改进的超立方体互连圈结构建立逻辑的关键字搜索层.对于给定的文档和描述该文档的关键字集合,使用反向文档索引(IDF)技术选择文档的重要关键字,并映射到环标号,将描述文档的关键字集映射到立方体标号,有效地提取了关键字对于文档的重要性信息,并通过构造生成树来实施搜索操作.实验结果表明,与使用超立方体结构作为关键字搜索层的算法相比,该算法在查询关键字较少时,具有更好的性能.  相似文献   

9.
为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。  相似文献   

10.
基于本体的文档语义标注改进方法   总被引:2,自引:0,他引:2  
在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签一文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.卖验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号