首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;然后,依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过改进的最大边缘相关算法合理地选择摘要句,得到最终的多文档摘要。结果表明,与其他方法相比,通过使用深度学习方法并结合分层最大边缘相关算法共同获得的柬语多文档摘要,R1,R2,R3和RL值分别提高了4.31%,5.33%,6.45%和4.26%。基于分层最大边缘相关的柬语多文档抽取式摘要方法在保证摘要句子多样性和差异性的同时,有效提高了柬语多文档摘要的质量。  相似文献   

2.
当前大部分的抽取式摘要方法主要关注对摘要句的表示和抽取,容易忽略对文本特征表示的充分性。为了解决这一问题,提出一种基于度量学习和层级推理网络的抽取式摘要方法。首先,在抽取式任务基础上提出基于度量学习和层级推理的抽取式摘要模型(MLHIN);其次,在CNN/DailyMail数据集上进行模型评估,并在英文摘要数据集CNN/DailyMail上进行测试;最后,对测试结果进行验证。结果显示,所提方法模型在Rouge-1,Rouge-2,Rouge-L上的得分明显优于其他模型,比Lead-3模型分别高出0.84%,1.29%和2.43%;通过将提出的度量损失metric和层级推理模型中的句子编码器替换掉,可以看出模型性能均有不同程度的下降,证明了提出的层级推理网络和度量损失的有效性。新算法能够提高模型捕捉长距离依赖的能力,增强模型对摘要句与非摘要句的分辨力,有效改善了抽取式摘要方法的性能。  相似文献   

3.
基于本体的文档语义标注改进方法   总被引:2,自引:0,他引:2  
在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签一文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.卖验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.  相似文献   

4.
为了快速准确地理解语义网实体,提出了基于概念空间的摘要方法.针对RDF数据的无序性问题,首先将一个实体的不同侧面的RDF数据划分到不同的概念空间中去.其次在同一个概念空间中的数据依照谓语聚类的方法进行组织.对于实体重用带来的RDF数据的可信度问题,根据数据的来源,在数据的权威性维度上对实体数据进行划分.针对实体数据的大规模特性,提出实体数据摘要的方法,综合基于结构的重要性、用户偏好以及来源文档的重要性对数据的重要性进行计算.实验结果表明:基于概念空间的摘要方法能够有效地帮助人们快速理解语义网实体;该方法相对于其他RDF浏览器有4%~17%的效率提升;在用户比较熟悉RDF的情况下,使用该方法能够提高20%左右的效率.  相似文献   

5.
基于指纹和语义特征的文档复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测是保护知识产权、提高信息检索效率的有效手段.提出一种基于指纹和语义特征的文档复制检测方法.介绍了指纹提取算法以及相关的重叠度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征.在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本.  相似文献   

6.
基于潜在语义索引的文本摘要方法   总被引:11,自引:0,他引:11  
因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读。给出了基于潜在语义索引的文本摘要方法。它采用向量空间模型作文本表示方法,利用潜在语义索引来减少词汇间的“斜交”现象,在语义空间进行项、句子、段落与文本之间的相似度计算,而不是单纯地依赖于特征项的频率信息。依据对于文本主题的表现能力来确定摘要的各个组成部分及其组成方式,此外,给出了文本摘要的评估方法。  相似文献   

7.
基于潜在语义空间维度特性的多层文档聚类   总被引:2,自引:0,他引:2  
为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系.基于这种认识,通过采用不同维度来实现文档在不同概念粒度下的聚类,并获得了很好的聚类准确率.另外,在基于潜在语义分析的文档聚类算法中,采用文档自检索矩阵的行向量,代替低维文档向量作为聚类对象,获得了更好的聚类准确率.  相似文献   

8.
本文提出了基于句子重要度的累积贡献率摘要句筛选算法和改进的TextRank双层单文档摘要提取算法﹒摘要提取算法采用了分层结构,在不同层上融合了基于句子重要度的累积贡献率摘要句筛选算法,同时使用了长句和短句两种不同分割方式相结合的策略来构建摘要提取算法﹒用手工整理的中文单文档摘要数据集验证了算法的性能,结果表明:提取的摘要质量非常好﹒  相似文献   

9.
段雪莹  王阳 《科技信息》2010,(35):J0079-J0079,J0045
本文研究的重点是中文多文档自动的几个关键技术:包括子主题划分、基于子主题的句子抽取等。在传统的基于子主题的句子抽取方法的基础上提出一种基于子主题的遗传算法句子抽取方法,并对形成摘要的句子采用新的排序方法。所实现的中文多文档摘要系统具有重点突出,可读性强等特点。  相似文献   

10.
多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使用维基百科——当今世界最大的在线概念语料库——为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验证了维基词条首段能较好的提升文摘质量.  相似文献   

11.
在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于频率因子和长度因子的新权重方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善。  相似文献   

12.
零文介绍了一种VC的单文档中对窗口视图任意分割方法。采取对单文档中框架类的视图分割,方法便捷可靠。最后用一个实例详细的说明编写程序的过程。  相似文献   

13.
张剑  袁华强 《科学技术与工程》2013,13(21):6299-6301,6305
提出了一种新的非生成式的概率模型框架-Rhetorical-State支持向量机(RSSVM),用于抽取有层次结构的演讲语音摘要。在演讲语音摘要抽取中,隐藏在演讲中的修辞结构是最没有被充分利用到的信息之一。将RSSVM与修辞状态隐马尔可夫模型(RSHMM)结合一起,用来自动解码演讲中的修辞结构信息与摘要信息。从实验结果中发现,RSSVM-RSHMM抽取摘要的性能达到了72%ROUGE-L F-measure,与不使用修辞信息的基线系统相比,其性能提高了9.8%。  相似文献   

14.
随着Web的爆炸性增长,更精确的内容检索受到广泛关注.文档的语义信息提取是内容检索中的关键问题.Tika是近年来出现的一个用来获取文档语义的一个工具软件,支持HTML、PDF、word、PPT、mht等众多格式的文档语义提取.给出了用Tika实现文档元信息提取以及文档内容提取的编程调用方法;分析了Tika进行语义提取中的一些缺陷,并针对文档标题的提取处理给出了纠正解决方案,从而为基于语义的资源检索和全文内容检索提供更为准确的信息表达.  相似文献   

15.
基于领域本体的文档自动摘要算法   总被引:1,自引:0,他引:1  
介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量.  相似文献   

16.
介绍了利用Lucene结合Tika实现站点内容的全文检索设计的编程过程。用Tika获取文档的元数据以及文档内容的文本提取。用Lucene实现文档的索引创建和检索服务,结合实例详细分析了Lucene API的具体使用特点。利用Spring MVC实现搜索服务的Web访问处理。可对网站的HTML、PDF、word、PPT、mht等各种类型的文档提供统一的内容检索服务。在该论文研究基础上可建立个性化的内容搜索服务系统。  相似文献   

17.
技术越来越得到关注,文章设计了从多文档中生成摘要的方法。基于多种语义特征和语义相似度计算句子的重要性评分值,使用stack decoder算法利用多个堆栈生成摘要;基于分团问题的生成方式构建了句子的非相似性图,通过求解非相似图中有边的子集合顶点选取合适的句子。实验以DUC2004语料集为数据集,通过上述方法产生摘要,ROUGE评测指标达0.069 7,与已有方法相比在ROUGE值上有明显提高,并对归一化方法进行了讨论,探索了适用的归一化措施。  相似文献   

18.
提出了一种支持用户在网上的浏览活动的语义标注方法.该方法从语义上同类型的标注信息中提取特征,通过获取标注信息以建立用户意图模型,再利用概率判断识别用户意图;语义转换后得到的信息可以和其它的或被评估的用户意图进行比较;最后利用启发式函数量化具体用户意图和信息的相似度,以达到用户在浏览语义异构网络信息空间时获取相关信息的目的.  相似文献   

19.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题.  相似文献   

20.
电压暂降检测对电能质量分析和控制具有重要意义.提出一种基于电压空间矢量的单相电压暂降检测方法.通过对三相电压信号进行Clark变换,结合Euler公式构造三相电压空间矢量,根据空间矢量在复平面上的椭圆轨迹进行电压暂降的检测并识别出故障相.由椭圆长半径、短半径和倾斜角求出电压暂降过程中电压相位角跳变值,根据相位角跳变值对原始电压数据进行移相,最后计算出电压暂降深度.仿真实验取得了良好效果,表明该方法具有一定的应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号