首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

2.
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。  相似文献   

3.
提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法, 通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类, 同时用交互聚类的方式替代了传统的递归算法. ISTC算法具有语言无关性, 不仅适用于基于单词的西方文字, 而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符. 在此算法基础上, 设计并实现了基于改进后缀树算法的交互聚类引擎, 在不同的网络环境下对其 进行了系统测试, 并与其他元搜索引擎进行了对比. 实验结果表明, 使用改进后缀树算法进 行实时交互式聚类是可行的.  相似文献   

4.
作为一种常用的在线文档聚类算法,STC算法聚类结果在用户个性化方面存在不足。改进后的算法结合用户兴趣模型,通过增加基类选择因子和改善基类合并规则来进行改进,实现基于用户兴趣特征的个性聚类效果。实验表明,改进后的算法具有较好的准确性和效率。  相似文献   

5.
文本分类是根据文本内容自动确定文本类型的过程。介绍现有特征抽取和分类算法,提出用模糊聚类算法FCM确定文本类标签,Boosting算法构造分类器的方法,使文本分类具有更好的分类精度和时效性,以及对未知类标签语料库中文本的自适应性。  相似文献   

6.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.  相似文献   

7.
针对用户搜索聚类的需求,以描述优先聚类算法为中心,利用提取高频短语获取候选聚类标签,并结合用户行为,提出一种基于搜索引擎的搜索结果可视化服务的实现机制.该机制包括聚类、可视化、用户反馈三个方面的算法,通过将用户的搜索结果动态转化及总结为相关聚类形态,基此进行可视化搜索呈现,引导用户快速获得搜索结果,并统计用户的使用习惯.实验表明:该机制可有效将用户搜索的结果进行汇聚,减少用户选择的选项,利用聚类等呈现手段辅助用户搜索.  相似文献   

8.
针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的.  相似文献   

9.
一种用于文本聚类的改进k-means算法   总被引:2,自引:0,他引:2  
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。  相似文献   

10.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

11.
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering.  相似文献   

12.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

13.
为了进一步提高矢量Taylor级数(VTS)算法的模型补偿精度以及在噪声环境下的识别性能,提出将无监督聚类与VTS算法相结合。无监督聚类算法利用噪声模型之间的Kullback-Leibler距离将含噪语音段划分为若干个子段。然后针对各个子段分别进行一阶Taylor级数展开,并在此基础上逐段估计噪声参数和补偿声学模型。该算法结合一个中文数字串识别系统进行实验,在Babble噪声和Gauss白噪声环境下该算法的误识率相对传统的VTS算法分别下降了27.7%和17.8%。证明这种结合无监督聚类的分段VTS算法能够更加有效地将语音和噪声在倒谱域上的非线性混合模型用一阶线性模型来近似。  相似文献   

14.
针对传统Mashup服务推荐在网络构建方式的成本和计算复杂性过高问题, 提出一种基于半监督层次聚类描述的Mashup服务推荐算法. 首先, 利用网爬工具收集ProgrammableWeb上的Mashup服务信息, 并采用后缀剥离算法把Mashup服务的标签信息修改为名词形式, 以此作为研究分析的数据集; 其次, 为提高聚类精度, 提出一种半监督层次描述聚类算法, 通过植入层次聚类算法顶层核心集方式, 有效解决了传统层次描述聚类因顶层分类集构造失败而影响Mashup服务推荐算法的准确度. 通过在聚类数据集和网爬Mashup服务数据库上的实验表明, 该算法的Mashup服务推荐准确率优于对比算法.  相似文献   

15.
支持向量机在短期负荷预测中的应用   总被引:1,自引:0,他引:1  
采用一种有效的负荷聚类分析处理技术,把FCM模糊聚类算法和支持向量机的短期负荷预测相结合。该方法考虑到负荷变化的周期性特点,应用模糊聚类分析的基本原理,对原始样本进行模糊聚类分析,选取与预测样本特征相似的样本作为训练样本,建造负荷预测的支持向量机模型。实例分析证明,该方法能够有效地提高负荷预测的精度,缩短了预测时间。  相似文献   

16.
室外非视距(non line of sight, NLOS)环境中障碍物会阻碍终端电磁波信号直接传播到基站,而且该条件下单基站收集的定位信息不足,导致定位精度不高。针对上述问题,提出一种基于空间布局的散射区模型和基于参数聚类的定位算法。根据固定基站附近的空间布局确定散射区并构建散射区模型,该算法基于该模型收集多径信号的测量参数,将k-means聚类(k-means clustering)和均值漂移聚类(means shift clustering)算法有效结合对参数聚类处理,再根据聚类结果和单站定位系统的几何结构建立方程组,将方程组的求解问题转化为非线性优化问题并利用列文伯格-马夸尔特(Levenberg-Marquardt, LM)算法求解优化问题估计目标位置。仿真结果表明,在室外NLOS环境中,且仅提供单个基站的条件下,该算法可以有效提高定位结果的精度。  相似文献   

17.
为了提高脑部肿瘤的磁共振成像(MRI)在肿瘤分割方面的精度和分割效率,提出了自适应阈值蚁群模糊聚类算法(TSAG_PnFCMS)。针对传统的模糊c均值聚类(FCMS)算法对噪声敏感,以及MRI图像中存在属性不同的样本点,在聚类过程中,将不同属性样本点的相关系数作为权重融入到欧氏距离的计算,提高聚类精度;针对蚁群算法容易陷入局部最优,提出一种自适应阈值蚁群算法,提高算法的全局搜索能力,将自适应阈值蚁群算法与改进的模糊聚类算法相结合,提高系统的分割精度和抗噪声性能,使得最终的分割效果达到最优。通过轮廓系数、目标函数收敛结果以及迭代时间进行实验仿真对比,表明改进算法的有效性,可见算法为颅内肿瘤图像的分割提供了可靠的技术手段。  相似文献   

18.
AdaBoost算法是一种将多个基学习器通过合理策略结合生成强学习器的集成算法,其性能取决于基学习器的准确率和多样性。但弱学习器分类精度不高往往也导致了最终强分类器性能较差,因此进一步为了提高算法的分类精确率,本文提出一种MDTAda模型,首先利用基尼指数迭代构造一棵不完全决策树,然后在决策树的非纯伪叶结点上添加简单分类器,生成MDT(模型决策树),将MDT作为AdaBoost算法的基分类器,加权平均生成强分类器。在标准数据集上的实验表明,相比传统的AdaBoost算法,本文提出的算法拥有更好的泛化性能和更优的间隔分布,且在与AdaBoost算法达到相同精度时所需迭代次数更少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号