首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了提高海量XML文档集的聚类质量,提出了一种基于向量空间模型的矩阵迭代自组织XML辅助聚类算法。该算法以XML键为基础,把XML文档转化为向量矩阵,通过矩阵迭代自组织学习对XML文档实施取消、分裂与合并等优化措施。为了加速算法的收敛性,在算法中引入辅助策略,虽然不一定达到矩阵向量分类间隔最大化的目标,却在尽可能分类的情况下使得运算时间缩短,其XML键权重调整更有利聚类效果。对比其它向量聚类算法,一系列仿真实验表明所提出算法具有一定的有效性及合理性。  相似文献   

2.
当前全球创新方向正在向开放式团队创新转变。开放式团队创新环境中,基于网络的电子研讨成为最基本、最重要的创新活动,及时准确地识别海量电子研讨信息的研讨主题,并通过可视化形象地展示给创新团队成员,对提高开放式团队创新的效率和质量至关重要。针对传统主题挖掘研究中存在的主要问题,提出了开放式团队创新研讨主题识别方法。该方法在文档建模阶段提出并建立了基于团队创新研讨信息本体和研讨树结构的研讨文本语义计算方法;在研讨主题聚类阶段,针对开放式团队创新研讨的短文本特征,运用AntSA算法对研讨文本进行聚类分析;并通过计算聚类结果中每个节点名词的研讨主题标签贡献率,识别每个类别的研讨主题。最后,根据所提出的开放式团队创新研讨主题识别方法,设计和开发了开放式团队创新研讨主题可视化系统,识别并直观显示各研讨主题间的语义关系和结构关系,并对其进行了实验研究。  相似文献   

3.
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。  相似文献   

4.
基于在线评论词向量表征的产品属性提取   总被引:1,自引:0,他引:1  
在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类相结合的半监督方法,用于从海量在线文本中高效挖掘出用户评论的特征,并进一步按照这些特征的语义提取出它们的归类信息.在真实数据集上的实验结果表明,提出的方法可有效应用于海量在线评论中的文本属性提取工作;与经典模型相比,本方法从特征中提取的归类属性信息能更好地呈现出评论者表达的语义.  相似文献   

5.
基于最邻近聚类和向量模糊c-均值的混沌预测   总被引:1,自引:0,他引:1  
针对混沌时间序列难预测的问题,提出一种新的基于最邻近聚类和向量模糊c-均值(FCMV)聚类算法的模糊建模方法。其前提参数辨识分两步,首先用最近邻聚类法初始划分输入空间,得到规则数及初始聚类中心,再用FCMV把具有相同收敛向量的聚类中心归到同一个区域来优化前一步得到的聚类中心,得到前提参数;采用递推最小二乘算法辨识模型的结论参数。最后通过对Mackey-Glass混沌时间序列的建模和预测验证了该方法的有效性与实用性。  相似文献   

6.
一种基于互信息的词聚类算法   总被引:1,自引:0,他引:1  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

7.
针对网络的异常检测方法对未知攻击难以提供更多有用信息的缺点,提出一种基于分类器的异常检测模型。模型首先采用支持向量机对网络连接进行异常检测,然后将检测获得的异常作为输入进入聚类模块以得到其更多信息,其中聚类模块由自组织映射算法与信息获取算法共同完成。通过对检测到的异常进行信息获取的方法可以获得未知入侵的更多有价值的信息。最后应用kddcup99数据集进行仿真实验,实验结果表明,该检测模型具有较好的检测率和较低的误报率,并且该模型对于获得未知入侵的更多信息是有效的。  相似文献   

8.
自适应的混沌粒子群算法优化XML文档聚类策略   总被引:1,自引:0,他引:1  
为了提高海量XML文档集的聚类质量,提出了一种基于粒子群的XML自适应混沌聚类算法(简称ACPSO):为了简化XML文档相似性判定,该算法以XML键为基础,结合混沌原理与粒子群算法划分XML文档:为了加速算法的收敛性,通过对算法相关参数的自适应学习与权重调整,增强XML文档的全局寻优能力,改善XML文档聚类的质量.对比其它聚类算法,仿真表明本算法不仅能有效避免聚类停滞现象的发生,而且是一种高效的XML文档聚类方法.  相似文献   

9.
在技术供需文本匹配视角下,提出了一种基于语义相似聚类的技术需求识别模型.首先,采集网络中技术需求文本提取关键短语;然后,建立领域专利技术转让索引库,基于需求关键短语检索出高相关专利,构建专利技术供给背景库,并对背景库中专利标题与摘要进行分词;第三,提出基于词向量的供需文本语义匹配度算法,筛选有效技术需求并进行语义相似聚类;最后,考虑技术需求对应的需求量和专利技术转让量,对聚类结果进行二维分类.以新能源领域为例进行实证,识别出有效技术需求195个,基于语义相似聚成12类,结合需求量与专利转让量,将12类技术需求分为“高需求、高转让”、“高需求、低转让”、“低需求、高转让”、“低需求、低转让”四大类.该研究为网络技术需求挖掘及供需匹配提供一种新思路.  相似文献   

10.
提出了改进的稀疏子空间学习方法。首先,提出了稀疏近邻相关性重构模型,该模型通过提取样本间的局部信息和标记样本的标签信息,解决了稀疏子空间学习的全局特征导致数据描述不充分的问题;其次,利用半监督技术,引入正则化参数对无标签判别特征和标签判别特征进行特征融合,提高了基于稀疏近邻相关性重构的子空间学习算法的性能。实验结果表明,该方法具有较高的分类性能和识别率,此外,稀疏近邻相关性重构在提取判别信息时具有良好的稳定性。  相似文献   

11.
为提高支持向量机在大规模数据集上的训练效率,提出一种基于自适应协同聚类的支持向量预选算法。该方法通过对两类样本进行自适应协同聚类,寻找少量具有协同关系的类中心对,替代支持向量进行训练,从而减少参训样本数量。其中,中心对数量由算法自动确定。与其他支持向量预选算法的对比实验结果表明,自适应协同聚类算法能够在不影响分类性能的情况下,有效提高训练速度,是一种行之有效的快速支持向量预选算法。  相似文献   

12.
新话题发现是进行舆情分析的基础和前提,新话题发现的一个关键环节是进行关键词的聚类分析.目前,大量的新话题来源于微博,但是将传统的聚类算法用于微 博新话题发现时,会产生特征向量的高维性和稀疏性问题,使得聚类结果非常不准确,而且收敛时间难以控制,进而影响舆情分析的可靠性和实时性.鉴此,本文提 出了频繁词集聚类FWSC (frequent words sets clustering)方法.实验结果表明,我们提出的方法能够快速有效地发现新话题.  相似文献   

13.
自适应特征熵权模糊C均值聚类算法的研究   总被引:1,自引:0,他引:1  
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自适应特征熵权模糊C均值聚类算法.该算法以聚类后的特征熵和信息增益作为准则调整特征权值,通过聚类与权重更新逐步迭代优化,直至获得最优的特征权值.实验表明,自适应特征熵权模糊C均值聚类算法能够有效地区分各个特征属性对聚类效果的重要程度;较于其它加权模糊C均值聚类算法,该算法能够得到更高的聚类准确率.  相似文献   

14.
田枫  沈旭昆  刘贤梅  周凯  杜睿山 《系统仿真学报》2012,24(9):1873-1876,1881
随着三维应用的普及,三维模型大量产生并广泛传播。由于三维模型广泛应用于计算机辅助设计、三维游戏、电影特效制作等诸多领域,已经形成了大量的三维模型数据库。三维模型语义标注的目的是给出描述其语义的标注词,是三维模型管理和基于文本的三维检索的关键技术。针对互联网大量存在的弱标签三维模型现状,提出一种基于弱标签的三维模型语义标注方法LPMLL,首先,采用半监督学习方法进行标签传播,得到标注词置信度,达到提升训练集的目的。然后,采用一种基于最大后验概率准则的方法进行多标签学习,得到最终标注词。实验数据表明了该方法的有效性。  相似文献   

15.
网络媒体报道倾向对互联网新闻舆情热点传播及公众认知有着重要影响.为揭示互联网媒体在新闻报道中存在语义和传播倾向,采用纳入文档协变量的结构化主题模型量化不同媒体报道热点主题的语义强度,同时结合格兰杰因果分析检验不同媒体对热点主题时间序列的影响.研究结果表明, 5家互联网媒体在报道共享单车热点新闻时,存在主题选择及传播倾向性.表现在与用户关系密切的话题,媒体间存在跟风造势的倾向,与用户关联不大的话题,媒体间则较少传播或单向传播.提出的融合结构化主题模型的格兰杰因果分析方法为测度网络舆情主体对网络舆情事件的演化影响提供了新手段.  相似文献   

16.
随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model, VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。  相似文献   

17.
针对解决具有语言评价信息的多指标聚类分析问题,提出了一种基于二元语义信息处理的最大树聚类方法。该方法依据传统的最大树聚类分析方法的基本思想,采用二元语义概念对语言评价信息进行处理和运算,并对聚类对象进行分类,具有概念清晰、计算简单、信息处理较为精确的特点。最后,通过一个算例说明了所给出的聚类方法。  相似文献   

18.
构建大规模网络舆情演化仿真模型,对新冠疫情武汉重灾区与全国其他地区采取差异化的应急管理和舆情疏导具有指导价值。为实现主题细粒度的舆情情感演化仿真,将LDA(Latent Dirichlet Allocation)主题模型与BERT(Bidirectional Encoder Representations from Transformers)词向量深度融合,优化主题向量助力文本主题聚类;同时,在改进BERT预训练任务的基础上,叠加深度预训练任务,以提高模型在情感分类中的精确度。结果表明:在主题向量训练过程中,改进的BERT-LDA模型较原始LDA模型NPMI(Normalized Pointwise Mutual Information)值提升0.357;在疫情事件情感分类任务上,AUC(Area Under the Curve)值超过了99.6%,证明其能够有效运用于大规模网络舆情演化仿真。  相似文献   

19.
本文在粒度空间理论的基础上,进行了基于粒度空间的最优聚类模型研究.具体包含以下三个内容:首先提出了基于类内偏差和类间偏差获取数据分层结构的优化聚类指标,进一步建立最优聚类模型,证明了该模型解的存在性,并给出了相应的算法;其次将发生在1902-2015年间同时含有HA与NA蛋白的甲型H1N1流感病毒序列作为实验数据库,应用本文提出的优化模型和算法构建了流感病毒蛋白系统的第一级结构和第二级结构,基于距离中心最近原理建立了签名病毒选取的优化模型,挑选签名病毒蛋白,并构建H1N1流感病毒的核心进化树;最后基于距离中心最近原则构建分类器以验证本文方法的有效性.实验结果表明:应用本文方法处理甲型H1N1流感病毒可得到非常好的分类结果,且正确率达到93.25%.这些为基于大数据的信息处理提供一整套全新的处理方法.  相似文献   

20.
在线媒体拥有海量的非结构化数据,包含大量的突发话题和普通话题.传统的话题模型在不加入先验信息的情况下,无法有效区分普通话题和突发话题.本文的研究提出基于高效用模式和话题模型的突发话题发现(high utility bursty topic model, HU-BTM)模型.该模型使用高效用模式挖掘找出文本数据中的突发词组,使用基于普通Polya坛子模型的Gibbs抽样方法,将突发词组与突发词引入话题模型,实现突发话题的自动识别.实验结果表明与现有的主要突发话题发现方法比较,HU-BTM模型在准确率和召回率指标上优于对比算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号