首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.  相似文献   

2.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

3.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

4.
对基因表达数据进行双聚类分析是生物信息学领域的一种重要技术方法,但双聚类问题已被证明属于NP难问题.目前针对基因表达数据的双聚类算法都存在时间效率较低的问题.为此,采用遗传算法与粒子群优化算法相结合的混合进化算法来求解基因表达数据的双聚类问题.实验结果表明,所提算法在明显减少运行时间的同时,仍能保证良好的聚类效果.  相似文献   

5.
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。  相似文献   

6.
提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法, 通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类, 同时用交互聚类的方式替代了传统的递归算法. ISTC算法具有语言无关性, 不仅适用于基于单词的西方文字, 而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符. 在此算法基础上, 设计并实现了基于改进后缀树算法的交互聚类引擎, 在不同的网络环境下对其 进行了系统测试, 并与其他元搜索引擎进行了对比. 实验结果表明, 使用改进后缀树算法进 行实时交互式聚类是可行的.  相似文献   

7.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

8.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

9.
设计了一种针对时间序列的k平面聚类算法,在时间维度和数值维度上同时对所有时序数据点进行聚类,从而将所有数据点划分到若干个不等长的时间窗口.在每个时间窗口上建立线性模糊信息粒子,最终得到原始时间序列的分段线性粒化表示.为便于采用模糊推理系统进行时间序列的预测,还定义了这些线性粒子的距离,从而构建了一种基于线性模糊信息粒子的预测方法.实验表明,所提出的预测方法可以有效地对具有伪周期的时间序列进行长期预测.  相似文献   

10.
OPSM作为一种基于模式的双聚类方法,被广泛应用于基因数据矩阵的分析上.在一个OPSM聚类中,形成聚类的若干基因在特定的条件子集下具有一致的表达模式,其中隐含着基因的关联调控信息,对基因数据矩阵进行双聚类分析具有生物学意义.其中,Deep OPSM 是OPSM 聚类中行数少列数多的特殊聚类.根据OPSM模型,该文提出了一种快速有效的精确性算法,用于挖掘分散在基因数据矩阵中的OPSM聚类.首先寻找基因数据矩阵中任意两行的公共子序列,然后利用STL map对找到的公共子序列进行支持度统计,并将符合支持度阈值的OPSM聚类输出,且通过阈值的设置即可输出Deep OPSMs.结果证明该算法能够快速地找到符合条件的Deep OPSMs.通过P-value值分析,验证了找到的Deep OPSM具有明显的生物学意义.  相似文献   

11.
混沌时间序列局域预测模型及其应用   总被引:4,自引:0,他引:4  
为了确定滞时、嵌入维数和最邻近点数运3个混沌时间序列局域预测模型参数,首先利用关联积分法确定滞时和嵌入维数.重构混沌时间序列的相空间;而后在此基础上,提出一种新的预测模型——加权动态局域预测模型.该模型综合考虑了广义自由度和邻近点权重,给出了确定最优邻域的判定指标.实际水文系统的计算分析表明,加权动态局域预测模型具有较高的预测精度,是一种有效的用于混沌水文时间序列的预测模型.  相似文献   

12.
提出一种新的基于关键点的时间序列分段拟合算法.通过一次扫描数据,该算法依次利用三个连续数据形成的夹角和非单调序列中的极值点,选择反映序列趋势变化的关键点,实现时间序列的线性拟合的同时剔除了噪音干扰,能精确定位单调序列中的突变转折点,发现序列中的尖峰状态.实验结果表明该算法具有良好的分段拟合性能.  相似文献   

13.
基于数据挖掘的金融时序频繁模式的快速发现   总被引:2,自引:0,他引:2  
针对金融时间序列分析中注重快速作出趋势判断的特点,利用数据挖掘的思想和工具,提出一种金融时间序列模式快速发现算法.与传统的预测算法相比较,该算法对数据的分布和平稳性等方面的要求不高,不基于任何假设,能够非常快速地发现时间序列中的频繁模式,经过模式匹配后,可以用于金融时间序列的分析与预测.以实际汇率数据为例,证明了该算法的有效性.  相似文献   

14.
时间序列自相关函数的局部影响分析   总被引:3,自引:0,他引:3  
 时间序列模型不同于一般的线性回归模型,其样本点之间存在着一定的相依结构使得常用的探测异常值的方法,如数据删除、单点求导等对时间序列而言效果不佳.为了探测时间序列中的强影响点,文章介绍了局部影响分析方法,研究同时对几个点作微小扰动时自相关函数的局部改变量.最后,用一个例子来比较局部影响方法与单点求导方法在探测强影响点上的优劣性.  相似文献   

15.
针对传统关联维数的计算方法耗时量过大的问题,通过改进点对距离的度量方法,采用空间分块策略技术对重构相空间进行分块并将每个网格进行统一编号,加快了点对的搜索速度,实现了关联积分的快速计算,从而较大程度地提高了关联维数的计算速度.仿真结果表明:提出的算法可以快速有效地计算时间序列的关联维数,为工程实际应用奠定了基础.  相似文献   

16.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

17.
随着电能质量监测点不断扩大,产生海量具有时序特性的多维电能质量数据,当前的诸多数据查询方法不能适应电网电能质量监测数据的交互式多维聚合查询需求。研究提出时序数据多维聚合服务的实现方法,为内存中预聚合后的任务结果建立哈希存储结构,对实时数据建立位图索引存储结构,将历史数据的预聚合数据尽量存储于内存中,改进随机读写的低性能问题,提升查询效率,解决交互式查询问题。同时运用最优聚合任务算法选择出尽量多的预聚合任务数,提高交互式查询命中率。实验验证了该算法的可行性,与分组二维背包算法相比,在预聚合任务数量选择方面具有一定优势。  相似文献   

18.
目的研究时间序列模型中一次性探测所有异常点和强影响的方法。方法局部影响分析方法。结果时间序列模型中各数据点之间存在着一定的相关结构,这种相关结构使得异常点和强影响点产生的机理及相应的分析变得复杂。克服了数据删除对时间序列样本数据相依性的破坏和忽略。得出时间序列模型影响曲率的具体计算公式,从而可以一次性探测出所有的强影响点。最后给出了具体的数值实例,说明了文中结论的有效性。结论此方法可以一次性探测出所有的强影响点,与数据删除法相比,大大简化了计算量。  相似文献   

19.
对于符号化时间分析方法,给出了已知的国外应用状况和文献出处.对如何将时间序列转化为符号序列,即信号符号化问题,通过最简单的二进制划分及其配套图形作了简要说明.给出了二进制划分下符号树结构及其Shannon熵计算方法,讨论了时延τ、符号集大小Ns和树层数(符号序列长度)对Shannon熵等统计量的影响.叙述了符号序列编码方法和符号序列直方图的作用;提交了进行符号时间序列分析的计算机流程图.图5,参23.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号