首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于"频率因子"和"长度因子"的新权重方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善。  相似文献   

2.
基于智能聚类的相关度内容检索方法   总被引:3,自引:0,他引:3  
为了提高内容检索的相关度与检索效率,基于信息系统理论与自组织神经网络理论,提出基于智能聚类的相关度检索方法,并设计了检索算法.经过训练的自组织神经网络通过对查询需求进行聚类,使得内容的检索只在与查询需求同类的文本内容中进行,提高了检索效率,并通过在同一个向量空间对查询向量与文本内容的语义向量进行相似度衡量,为用户选择更相关的内容提供依据.设计开发了基于智能聚类的内容检索试验平台,验证了该方法的有效性.  相似文献   

3.
根据模式聚合理论提出了一种文本特征降维的新方法.结合动态Kohonen网络理论检验了文本分类效果.在网络训练阶段引入了监督机制,提高了网络的分类速度和精度.应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化了词条的作用,消减了原词条矩阵中包含的冗余模式,有效地降低了向量空间的维数,提高了文本分类的精度和速度,并通过实验证明了该方法的泛化能力.  相似文献   

4.
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

5.
基于LSI和Rough集的文本分类研究   总被引:2,自引:0,他引:2  
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

6.
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价.  相似文献   

7.
基于核的自组织映射聚类   总被引:1,自引:0,他引:1  
将核学习的方法应用于自组织映射聚类中,提出了一种核自组织映射聚类算法.该算法以核函数代替原始数据在特征空间中映射值的内积,并且神经元权值向量的初始化和更新都可由其组合系数向量表示,从而获得了直观而简单的迭代公式.分析了算法中学习速率过高会降低学习稳定性、学习速率过低又会降低收敛速度等参数选择问题,给出了一组折中考虑学习稳定性和收敛速度要求的参数初始值.实验结果表明,核自组织映射聚类对于非椭圆型的类分布数据,如环形数据,聚类正确率也能够达到99.886 4%.对IRIS数据集和入侵检测报警数据的聚类也证明了核自组织映射聚类方法的良好性能.  相似文献   

8.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

9.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

10.
针对动态心电图波形数据量大,且具有明显个体差异性的特点,本文提出了一种新的动态心电图波形聚类策略.该策略融合了自组织特征映射神经网络、凝聚聚类和k-means算法,以达到将大量的相似心电图波形聚类的目的.实验结果表明该策略具有较好的聚类效果和较高的聚类精度.  相似文献   

11.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

12.
提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率.  相似文献   

13.
基于均值密度中心估计的k-means聚类文本挖掘方法   总被引:1,自引:1,他引:0  
文本挖掘作为数据挖掘的重要研究领域,是检索有用文本信息的重要手段。通过对K-means聚类挖掘方法的基本原理和实现步骤的分析,发现随机选择聚类中心迭代初值、奇异点问题是制约其发展的技术瓶颈,针对该方法的不足,提出了一种基于均值密度中心估计的K-means聚类文本挖掘方法,采用基于均值密度的聚类中心初值估算取代原有方法的随机选取模式,设计自适应的邻域形状选择机制,用均值密度配合阈值消除奇异点。实验结果表明,提出的方法提高了K-means聚类方法的文本挖掘性能,使得文本挖掘查准率得到很大的提高,不仅强于一般K-means均值聚类方法,且和新近流行的自组织神经网络聚类方法相比也具有一定的优势。  相似文献   

14.
提出了一种新的文档特征提取方法,将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权,不仅解决了维度偏高的问题,而且突出了重点特征词,提高了聚类的速度和精度。  相似文献   

15.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

16.
神经网络-空间方向小波四叉树压缩编码   总被引:1,自引:0,他引:1  
将空间方向小波四叉树编码与自组织特征映射神经网络相结合,提出了一种新的多尺度系数矢量量化压缩策略。首先通过小波分解得到三个方向的高频多尺度系数矢量,分别利用自组织特征映射神经网络对三个方向的多尺度系数矢量进行加权矢量量化压缩编码。仿真实验结果表明本文提出的算法是合理可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号