共查询到19条相似文献,搜索用时 62 毫秒
1.
为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。 相似文献
2.
基于优化层次聚类的文档逻辑结构抽取 总被引:1,自引:0,他引:1
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。 相似文献
3.
本文采用蚁群算法对聚类数目已知的多字符进行聚类识别,在分析了基本蚁群算法的基础上,提出了一种改进的蚁群算法,该算法结合分布式计算、正反馈机制、贪婪式搜索算法等.对每只蚂蚁构造一个可行解,利用信息素矩阵,经过若干次的选代,找寻包含最优解的蚂蚁.通过与K-means和遗传算法比较,最后得出结论,该蚁群算法识别效果好,执行效率高. 相似文献
4.
一种基于聚类思想的目标识别新方法 总被引:2,自引:0,他引:2
为对地空导弹将要拦截的目标进行识别,以雷达站目标库中所存在的目标为基础,根据雷达所测得的目标属性,在综合因素的基础上利用聚类思想给出一种目标识别的方法,并通过实例初步验证了该方法的可行性,为防空作战决策提供科学依据。 相似文献
5.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题. 相似文献
6.
基于潜在语义空间维度特性的多层文档聚类 总被引:2,自引:0,他引:2
为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系.基于这种认识,通过采用不同维度来实现文档在不同概念粒度下的聚类,并获得了很好的聚类准确率.另外,在基于潜在语义分析的文档聚类算法中,采用文档自检索矩阵的行向量,代替低维文档向量作为聚类对象,获得了更好的聚类准确率. 相似文献
7.
分析了目录识别研究的现状, 在总结当前技术优缺点的基础上, 提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点, 利用聚类技术发现目录装饰性内容, 生成具有自适应性的目录布局模型, 然后利用该模型生成目录条目及其层次关系。实验结果表明, 该方法在准确度和效率上均取得了较好的效果, 尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线, 显著提高了原电子目录制作系统的生产效率。 相似文献
8.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。 相似文献
9.
K中心点算法是一个常用的聚类算法,它的主要缺陷是容易陷入局部极值,计算代价太高.本文先构造一个运用余弦相似度的K中心点文档聚类算法,然后提出一个改进算法,该算法不增加计算的复杂性,显著改进文档的聚类结果.最后,将该改进算法作为局部搜索过程嵌入到迭代局部搜索结构中,构造一个基于K中心点的迭代局部搜索文档聚类算法,进一步改进了文档聚类结果.试验结果表明该算法显著改进了文档聚类结果. 相似文献
10.
一种基于相似性的文档聚类算法 总被引:2,自引:0,他引:2
针对常见信息检索技术的缺陷,提出一种基于相似性的文档聚类分析算法,将文档集合转化为向量集合,基于向量之间的余弦相似度,采取凝聚的层次聚类算法来获得聚类,给出了算法的详细描述的一个测试实例。 相似文献
11.
Sentiment analysis has been widely used to mine users' opinions on products, product attributes and merchants' response attitudes from online product reviews. One of the key challenges is that the opinion words in some reviews lack obvious evaluation objects(product attributes). This paper aims to identify implicit attributes from online clothing reviews, and presents a unified model which applies a unified tagging scheme. Our model integrates the indicator consistency(IC) module on the basis of bidirectional gated recurrent unit(BiGRU) with a conditional random fields(CRF) layer(BiGRU-CRF), which denoted as BiGRU-IC-CRF. On the 9640 comments data set of a certain clothing brand, the comparative experiment is carried out by BiGRU, BiGRU with an IC layer(BiGRU-IC) and BiGRU-CRF. The results show that this method has a higher recognition rate, and the F1 value reaches 85.48%. The method proposed in this paper is based on character labeling, which effectively avoids the inaccuracy of word segmentation in natural language processing. The IC module proposed in this paper can maintain the consistency of the product attributes corresponding to the opinion words, thereby enhancing the recognition ability of the original BiGRU-CRF method. This method is not only applicable to the implicit attributes recognition in clothing reviews, but also helpful to other fields implicit attribute recognition of product reviews. 相似文献
12.
一种基于层次聚类的流数据挖掘方法 总被引:1,自引:0,他引:1
单劲松 《太原师范学院学报(自然科学版)》2008,7(4):72-74
流数据的特点在于数据流快速、有序地到达,并且数据海量,许多应用领域中生成的数据都可以归结为此类型.数据挖掘技术可以从海量的数据中发现有意义的知识模型,传统的数据挖掘算法通常是针对静态数据集,对流数据却无法有效地处理.文章试图从层次聚类角度处理流数据,并探讨了一种基于最小代价函数的层次聚类算法. 相似文献
13.
语音识别中基于模糊聚类分析的参数聚类 总被引:1,自引:0,他引:1
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,基于声学决策树结构,提出利用模糊聚类分析方法对模型参数聚类,包括高斯聚类和方差共享.对大词汇量汉语连续语音识别的实验结果表明:高斯模糊聚类使高斯数减少25%时,识别率提高了0.15%.进一步做模糊方差共享,当方差减少到初始模型的24%,与同样参数量的未进行聚类的模型相比,误识率下降了3.01%,证明了模糊聚类分析在语音参数聚类中的有效性. 相似文献
14.
提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为256的码本。用SFCM算法得到的码本分布合理,没有空类,采用此码本的语音识别实验表明了这种量化方法对语音识别的有效性。 相似文献
15.
无线电信号识别在无线电监测中占有重要地位,为了提高信号识别率,针对C波段信号特征数据的特点,提出一种基于ReliefF和聚类的特征选择方法.该算法首先用ReliefF算法去除与分类不相关的特征,再对余下的特征根据相关度强弱进行特征聚类,最后根据特征权重大小和相关度强弱删除冗余特征,选出代表性特征.实验结果表明,该算法有效地减少了数据维数,并且提高了信号识别率. 相似文献
16.
提出了一种基于隐条件随机场的人体行为识别方法。首先,通过目标检测和目标跟踪提取图像序列中人体所在时空区域;其次,提取人体区域的 Gist 特征作为人体行为视觉描述子;最后,利用隐条件随机场模型对人体行为进行建模和识别。通过大规模试验证明了该方法的有效性,与其他方法的对比实验验证了该方法的优越性。 相似文献
17.
基于话者分类和HMM的话者自适应语音识别 总被引:2,自引:1,他引:2
本文提出了一种基于话者分类和HMM的话者自适应语音识别方法,采用对参考话者聚类、并按话者类分别建立HMM模板的策略,对于新注册的用户,系统只需利用其极少量的语音,便可将与之最相近的一类模板指派给新用户,再采用基于谱空间映射的两级自适应方法,使系统自适应到用户的模式下工作.这种方法既提高了识别性能,又降低了自适应的难度,还有利于HMM的建立.讨论了话者分类数和自适应语音数据对话者自适应效果及识别性能的影响,提出了一种在自适应语音数据不足情况下仍具有较好自适应效果的基于FVQ的码本自适应改进算法,该算法还具有对自适应字表不敏感的特点. 相似文献
18.
基于遗传算法的动态文本聚类 总被引:1,自引:0,他引:1
为了解决动态文本聚类中聚类中心陷于局部极值点的问题,该文提出了基于遗传算法的动态文本聚类方法.采用二进制编码方式对聚类中心进行编码、类内中的点与其类中心的欧氏距离作为适应度函数.通过遗传算子的操作对类中心进行逐步迭代,直至适应度函数收敛,得到使聚类划分效果最好的聚类中心.实验表明该方法可以克服局部极值点的问题,且聚类结果的评价指标Purity(纯度)也比较好. 相似文献
19.
基于关联语义链网络提出了一种自适应分裂的文本聚类方法. 该方法通过从关联语义链网络中检测出各个社团结构作为文本集中的类别, 以避免对聚类数目的预先确定. 同时, 针对高维稀疏的词向量导致的文本之间或文本与类之间相似性低的问题, 将关联语义链网络中词与词之间的关联关系映射到文本与类之间的关联关系中去, 以增强文本与类之间关系的强度. 通过与其他主要聚类方法进行实验对比, 发现该聚类方法不仅能够对文本集合进行准确的聚类, 而且能够较准确地确定聚类中心数目和识别出文本集中的话题信息. 相似文献