首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于优化层次聚类的文档逻辑结构抽取   总被引:1,自引:0,他引:1  
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。  相似文献   

2.
一种基于相似性的文档聚类算法   总被引:2,自引:0,他引:2  
针对常见信息检索技术的缺陷,提出一种基于相似性的文档聚类分析算法,将文档集合转化为向量集合,基于向量之间的余弦相似度,采取凝聚的层次聚类算法来获得聚类,给出了算法的详细描述的一个测试实例。  相似文献   

3.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

4.
流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用.以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少.针对此现状,使用聚类的方法对文档进行分类,在此基础上提出了针对不同文档分类的、基于双向门控循环单元-条件随机场(bidirectional gated recurrent unit-conditional random field,BIGRU-CRF)的文档结构识别方法,以此来解决多类型文档结构识别的问题.实验结果表明,该方法不仅能够提高学术论文结构识别的效果,对其他类型的文档结构也能够进行较好地识别.  相似文献   

5.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果.  相似文献   

6.
一种基于聚类思想的目标识别新方法   总被引:2,自引:0,他引:2  
为对地空导弹将要拦截的目标进行识别,以雷达站目标库中所存在的目标为基础,根据雷达所测得的目标属性,在综合因素的基础上利用聚类思想给出一种目标识别的方法,并通过实例初步验证了该方法的可行性,为防空作战决策提供科学依据。  相似文献   

7.
一种基于灰色聚类和模糊聚类的集成方法   总被引:2,自引:0,他引:2  
根据灰色聚类,模糊聚类,关联系数原理,提出一种新的综合集成方法,利用灰色关联系数将灰色聚类与模糊聚类集成,使聚类结果不仅反映了各聚类对象所属灰类的信息,还有效显化了各个对象间的相互关系的信息.  相似文献   

8.
为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。  相似文献   

9.
模糊C- 均值算法是一种比较有的数据聚类方法,然而在聚类数不能事先确定,或样本空间太大时,聚类非常困难。遗传算法是一种借鉴生物界自然选择和自然遗传机制的高度并行、随行、自适应的搜索算法。将遗传算法与模糊聚类技术结合起来,提出一种混合聚类的方案。该方案能够快速正确的实现聚类,且不需事先认定聚类数。实验结果令人满意。  相似文献   

10.
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果.  相似文献   

11.
XML文件可以利用树状结构来表示,于是把如何将XML文件做聚类看成如何对树状结构的数据作聚类.使用SOM聚类工具搭配上Jaccard 的距离测量公式来对XML 文件做聚类,然后在每个cluster 中利用GST(Graph Search Technique)算法从这些XML文件当中找出他们的最大序列,最后将这些最大序列融合起来成为共同的结构.  相似文献   

12.
为编辑PDF文档中的表格信息,设计一种基于Python平台的,包含文件选取与文件转换两大功能模块的信息提取软件。该软件利用Python内置库,针对PDF中不同表格的结构设计算法,识别表格内的文字信息与表格结构,将得到的表格结构还原至Word与Excel文档中,文字信息同样复原至对应单元格内。实验表明:开发的软件完整快速地提取了PDF中的表格信息,并将其转化为易于编辑的Excel和Word文档,达到了预期目的;其转换速度与收费软件WPS相当,转换速度明显快于其他免费转换软件;识别精确度与迅捷PDF转换器、Smallpdf等相比有所提高。  相似文献   

13.
提出一种使用模糊聚类融合线性子空间特征和Gabor小波特征的人脸识别方法. 通过分析样本在子空间的聚类情况, 对处于不同聚类边界的样本采用Gabor特征进行二次识别. 实验结果表明, 该方法能在保证识别率的前提下, 有效减少平均识别时间.  相似文献   

14.
语音识别中基于模糊聚类分析的参数聚类   总被引:1,自引:0,他引:1  
徐向华  朱杰  郭强 《上海交通大学学报》2004,38(12):2086-2088,2093
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,基于声学决策树结构,提出利用模糊聚类分析方法对模型参数聚类,包括高斯聚类和方差共享.对大词汇量汉语连续语音识别的实验结果表明:高斯模糊聚类使高斯数减少25%时,识别率提高了0.15%.进一步做模糊方差共享,当方差减少到初始模型的24%,与同样参数量的未进行聚类的模型相比,误识率下降了3.01%,证明了模糊聚类分析在语音参数聚类中的有效性.  相似文献   

15.
提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为256的码本。用SFCM算法得到的码本分布合理,没有空类,采用此码本的语音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

16.
一种使用属性表的快速概念聚类算法   总被引:1,自引:0,他引:1  
形式概念分析是一种用于概念聚类的无监督机器学习技术,在数据挖掘、信息检索等很多领域中得到了应用.将概念搜索空间重新组织成一棵前缀树,并构造了一张属性表,利用表中保存的数据对前缀树进行剪枝,使概念聚类的过程仅在一些有效的子空间中执行,进而提出了一种使用属性表的快速概念聚类算法.实验结果表明,该算法在稠密和稀疏的形式背景下均优于NextClosure算法.  相似文献   

17.
针对现有基于聚类算法的信号调制识别在低信噪比时识别率低的缺点,文中采用聚类算法提取信号特征参数,通过变梯度Polak-Ribiere BP修正算法对神经网络进行训练,以提高收敛速度,改善在低信噪比条件下网络识别性能,实现对基于星座图调制方式信号的调制识别,仿真结果表明,在低信噪比条件下,调制识别率和单独采用聚类算法或基于BP算法的神经网络识别时比较提高30%以上,在信噪比为4d B条件下识别率可达到90%,且系统易于实现,在信号调制识别中具有广泛的应用前景。  相似文献   

18.
基于智能聚类的相关度内容检索方法   总被引:3,自引:0,他引:3  
为了提高内容检索的相关度与检索效率,基于信息系统理论与自组织神经网络理论,提出基于智能聚类的相关度检索方法,并设计了检索算法.经过训练的自组织神经网络通过对查询需求进行聚类,使得内容的检索只在与查询需求同类的文本内容中进行,提高了检索效率,并通过在同一个向量空间对查询向量与文本内容的语义向量进行相似度衡量,为用户选择更相关的内容提供依据.设计开发了基于智能聚类的内容检索试验平台,验证了该方法的有效性.  相似文献   

19.
 基于关联语义链网络提出了一种自适应分裂的文本聚类方法. 该方法通过从关联语义链网络中检测出各个社团结构作为文本集中的类别, 以避免对聚类数目的预先确定. 同时, 针对高维稀疏的词向量导致的文本之间或文本与类之间相似性低的问题, 将关联语义链网络中词与词之间的关联关系映射到文本与类之间的关联关系中去, 以增强文本与类之间关系的强度. 通过与其他主要聚类方法进行实验对比, 发现该聚类方法不仅能够对文本集合进行准确的聚类, 而且能够较准确地确定聚类中心数目和识别出文本集中的话题信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号