首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 871 毫秒
1.
本文提出了基于句子重要度的累积贡献率摘要句筛选算法和改进的TextRank双层单文档摘要提取算法﹒摘要提取算法采用了分层结构,在不同层上融合了基于句子重要度的累积贡献率摘要句筛选算法,同时使用了长句和短句两种不同分割方式相结合的策略来构建摘要提取算法﹒用手工整理的中文单文档摘要数据集验证了算法的性能,结果表明:提取的摘要质量非常好﹒  相似文献   

2.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

3.
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法——WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.  相似文献   

4.
卷积神经网络(Convolutional Neural Networks,CNN)可以提供比传统分类算法更强大的分类器并且能够自学习得到深层特征,有效地提高了图像语义分割的准确性.然而,基于CNN的语义分割算法依然存在一些挑战,例如在复杂场景中现有较优的方法较难分割小目标.为了解决复杂场景下小目标分割的难题,提出一种结合目标检测的小目标语义分割算法.与现有较优方法不同的是,该方法没有直接利用单个神经网络模型同时分割单幅图像中的小尺寸和较大尺寸目标,而是将小目标分割任务从完整图像的分割任务中分离.算法首先训练一个目标检测模型以获取小目标图像块,然后设计一个小目标分割网络得到图像块的分割结果,最终根据该结果修正整体图像的分割图.该算法提升了语义分割数据集的总体性能,同时能够有效地解决小目标分割的难题.  相似文献   

5.
在对高空间分辨率遥感影像进行分类时,为解决不同地物其空间尺度不同的问题,采用多尺度分割的面向对象分类技术,提出采用"对象完整面积个数最多法"的分割方法,研究得出道路、农田、居民地、裸地、水域的最优分割尺度分别为20、30、50、80和100,采用成员函数法对分割后的影像进行分类,并将分类后的结果与基于像元的监督分类结果进行了对比.研究结果表明:使用"对象完整面积个数最多法"实现最优分割的面向对象分类技术的分类精度高于基于像元的分类精度.  相似文献   

6.
为解决手写汉字文本的自动切分问题,提出了一种基于动态规划的联机手写汉字分割方法.该方法根据手写笔画的结构特征、笔顺信息以及神经网络分类器给出的类概率构造代价函数,并将其分别应用于手写句子的预分割和基于识别的分割过程,然后利用动态规划算法寻找最佳分割路径.预分割在保持较低误分割率的前提下,可以有效地降低候选分割块的数量,以加速分割过程.实验结果表明,预分割的误分割率为0.57%,过分割率仅为11.1%;在未应用语言模型的情况下,最终的正确分割率为88.2%.  相似文献   

7.
TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。  相似文献   

8.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

9.
基于天津市滨海新区2021年的Sentinel-2遥感影像数据,针对传统遥感影像湿地分类的不确定性问题,选择了面向对象分层分类的方法。采用面向对象多尺度分割算法,依据地物光谱异质性特征将遥感影像分割为光谱相似的对象,再结合不同地物的光谱指数、空间几何特征、纹理特征构建层次模型,分层提取湿地信息。分类效果同随机森林分类方法相比较,结果表明:利用面向对象的分层分类方法总体分类精度达到91.75%,Kappa系数为0.91,分类结果“斑驳现象”减少,湿地边界清晰完整。  相似文献   

10.
为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;然后,依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过改进的最大边缘相关算法合理地选择摘要句,得到最终的多文档摘要。结果表明,与其他方法相比,通过使用深度学习方法并结合分层最大边缘相关算法共同获得的柬语多文档摘要,R1,R2,R3和RL值分别提高了4.31%,5.33%,6.45%和4.26%。基于分层最大边缘相关的柬语多文档抽取式摘要方法在保证摘要句子多样性和差异性的同时,有效提高了柬语多文档摘要的质量。  相似文献   

11.
抽取式摘要可读性、准确性较差,生成式摘要存在连贯性、逻辑性的不足,此外2种摘要方法的传统模型对文本的向量表示往往不够充分、准确。针对以上问题,该文提出了一种基于BERT-SUMOPN模型的抽取-生成式摘要方法。模型通过BERT预训练语言模型获取文本向量,然后利用抽取式结构化摘要模型抽取文本中的关键句子,最后将得到的关键句子输入到生成式指针生成网络中,通过EAC损失函数对模型进行端到端训练,结合coverage机制减少生成重复,获取摘要结果。实验结果表明,BERT-SUMOPN模型在BIGPATENT专利数据集上取得了很好的效果,ROUGE-1和ROUGE-2指标分别提升了3.3%和2.5%。  相似文献   

12.
提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.  相似文献   

13.
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

14.
With the theoretical framework of patent information life cycle,this research studies the relationship between patents' life patterns and technological development stages of the relevant field,using life status in patent information life cycle as the research dimension. Data of patents issued in the field of wireless charging are retrieved from the United States Patent and Trademark Office Library. Citation information about these patents is also collected. By analyzing the temporal citation count data of patent information,the patents' life patterns using the RSD/P classification method are classified. This study found that the emergence of different life patterns of patent information has strong connection with the technological stage in which the patent information is located,and sleeping beauty patents have high hidden values. In the stage of technological development,attention should be paid to the identification of non-stationary patents. Rapid identification of high-value patents,i. e.,patents with certain life pattern,is instrumental to accelerate the development of technologies. This study provides a viable approach for identifying high-value patents of emerging technologies through empirical research.  相似文献   

15.
在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。  相似文献   

16.
Due to the importance of patent, many studies have been done in patent analysis. However, the problem of finding the hotspots of competitors is seldom considered. Although there exist some hotspot discovery methods in Micro-blog and online public opinion, it is difficult to be directly applied because of the particularity of the patent text. In this paper, we proposed a text-clustering-based patent hotspot discovery method to find the hotspots of competitors. We first measure the similarity between patents by both semantic association and IPC association. After that, we use a hierarchical clustering algorithm to find the research topics and name for them. Then, we calculate the hotness of the technical phrases in order to find the hotspots. Finally, we use a case study of Huawei company to show the effectiveness of the proposed method.  相似文献   

17.
中国专利及检索   总被引:1,自引:0,他引:1  
概述了中国专利文献的简况、特点和分类方法,并结合作者实践体会介绍了中国专利文献检索工具及检索的一般方法。  相似文献   

18.
几种常用文本分类算法性能比较与分析   总被引:9,自引:0,他引:9  
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善.  相似文献   

19.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

20.
以中文情绪语料库(Ren-CECps)为基础,重点研究了句子级情绪识别方法.比较了不同特征以及不同机器学习分类方法(NB,SVM,ME)对情绪识别的影响.此外,针对情绪文本和非情绪文本在语料中的分布非常不平衡问题,通过集成学习的算法来实现不平衡情绪识别,用以提高情绪识别的整体性能.实验结果表明:使用基于样本的集成学习方法能够有效解决不平衡问题,明显提高情绪识别的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号