首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度.采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固...  相似文献   

2.
分别采用相似度、聚类分析法和基于主成分分析的投影判别法对柴黄颗粒红外图谱的一致性进行了考察,结果显示30个柴黄颗粒样本的红外图谱一致性良好,采用平均值法建立了柴黄颗粒的红外指纹图谱。  相似文献   

3.
针对近邻传播(Affinity Propagation,简称AP)算法在对非团状数据集聚类过程中出现的局部聚类较多、精准度不高等问题,提出了一种基于改进AP算法的聚类质量评价模型.首先,在AP算法初步聚类的基础上,通过合并相似度较大的簇,减小聚类上限值k_(max),进一步压缩聚类区间范围;其次,给出一个新的内部评价指标,用分属不同簇的样本对的平均距离代表簇间距离,削弱噪声数据的影响,平衡簇间分离度与簇内紧致度的关系.在UCI和KDD CUP99数据集上的实验结果表明,新模型可以给出精准的最优聚类数(范围),能够在保持较低漏报率的同时,有效提高样本的检测率和分类正确率.  相似文献   

4.
文中提出一种半监督核信任力传播聚类算法(SSKAPC).SSKAPC在对样本聚类的过程中,引入先验知识提高聚类性能;同时该算法将样本映射到高维空间进行聚类.人工数据和真实世界数据的实验表明,SSKAPC算法能大幅度提高聚类的准确性.  相似文献   

5.
为了从大量日常收集的航空安全信息中快捷、准确、高效地获取可能存在的安全隐患,为安全风险控制提供明确的改进方向,结合文本分析和机器学习对给定类型的航空安全信息根据其内容聚类是挖掘有效信息的重要基础.以2017年中国民航收集的系统失效/卡阻/故障事件为样本,在Python 3.6环境下通过对文本预处理,采用对数的词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)进行特征提取以及K-means方法,建立该样本信息的自动聚类模型,基于多维缩放(multi dimensional scale,MDS)降维输出可视化结果.分析结果表明,文本信息聚类和可视化能够快速自动地对信息整理归档,识别各样本信息之间相似程度,轻松锁定关键信息,为下一步风险管控提供有针对性的措施.  相似文献   

6.
近邻传播算法(AP)不需要事先指定聚类数目,在程序运行过程中,能够自动识别聚类中心及聚类数目。在同一批数据集上,AP算法聚类结果稳定,鲁棒性好。除此之外,AP聚类算法可以采用多种距离度量方式,聚类结果精确。针对近邻传播算法(AP)不能对异构数据进行聚类的问题,提出一种基于张量距离的高阶AP聚类算法。该算法首先利用张量表示异构数据对象,然后将张量距离引入AP聚类算法,用来度量异构数据对象在张量空间的相似度。张量距离的引入,不但能够度量异构数据对象在数值上的差异,同时能够度量异构数据对象在高阶空间中位置的差异性,有效的捕捉异构数据对象的分布特征。实验结果表示,提出的高阶AP算法能够有效的对异构数据对象进行聚类。  相似文献   

7.
提出基于知识图谱和数据驱动的电影分类推荐方法;首先基于数据驱动爬取互联网中的电影数据并进行去重及清洗,然后采用知识图谱将电影数据与用户情感偏好数据进行关联,对海量的数据信息进行中心聚类,并在数据聚类的过程中计算投影向量得到相似度矩阵,最后查询相似度值并计算分类推荐指标权重得到最终的电影推荐清单.  相似文献   

8.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

9.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.  相似文献   

10.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

11.
本实验采用荧光光谱法对活血止痛胶囊的荧光性质进行了研究,优化了荧光图谱测定的实验条件,在最佳实验条件下,测定了不同厂家不同批号的活血止痛胶囊的三维荧光图谱,采用聚类分析法对活血止痛胶囊的三维荧光图谱的一致性进行分析,结果表明2个厂家7个批号的21个活血止痛胶囊样本的三维荧光图谱一致性良好。采用平均值法建立了活血止痛胶囊的三维荧光指纹图谱。  相似文献   

12.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

13.
为了提高末制导雷达故障诊断的效率和精度,提出一种基于属性粒化聚类与回声状态网络(ESN)的故障诊断方法.定义一种基于属性值影响度的属性区分能力测量指标,并以此作为相似性度量依据,利用近邻传播(AP)聚类算法得到区分能力相当的若干属性粒,通过选取聚类中心属性来完成故障征兆属性的约简;在储备池构建中,采用Bienenstock-Cooper-Munro(BCM)规则进行连接权矩阵的预训练,在目标函数中添加L_(1/2)范数惩罚项,以提高ESN储备池对样本的动态适应性;同时,采用半阈值迭代法对模型进行求解,通过末制导雷达信号处理模块的故障诊断实例,验证了所提方法的有效性和优越性.结果表明:与BP神经网络和传统ESN模型相比,所提方法的稳定性及诊断准确率更高;将其与基于属性重要度和AP聚类的属性粒化约简算法相结合,能够进一步提高故障诊断的效率和精度,其仿真实验的训练时间仅为8.98s,诊断正确率可达95.2%.  相似文献   

14.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

15.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

16.
地理知识图谱的表示学习需要根据正样本生成对应的负样本,然而传统的负样本生成算法存在错误率高、地理知识图谱适配性差的问题。针对这一问题,调整空间关系在地理知识图谱中的表达方式,提出基于空间约束的负样本生成方法,并将该方法应用至不同的知识图谱表示学习模型,探讨其在地理知识图谱表示学习中的适配性。结果表明,该算法具有较低的错误率,同时适用于常见的两类知识图谱表示模型,能够提高地理知识图谱表示学习的精度,有助于地理知识图谱在地理研究中发挥更重要的作用。  相似文献   

17.
网络新闻文本的专题发现(Topic Detection)旨在从大规模网络新闻文本集合中自动提取属于相关于同一主题的新闻文本。由于专题的主题、类型和规模并未预先定义,并且不具备任何先验知识可供参考,从而,现有研究往往利用聚类方法实现专题的自动发现。然而,聚类算法对内容相近的新闻专题难以有效区分。针对上述问题,提出了一种基于"社交圈子"结构的文本归并方法,深入特定聚类内部,根据社交圈的差异,进行二次划分。将文本内容和社交网络共同作为判定专题内外关联程度的特征信息,形成联合的判定模型。实验结果显示,在采用TFIDF作为特征的聚类结果中使用"社交圈子"进行进一步聚类划分,可提高精度达3个百分点,此外,聚类结果的熵降低了0.258,显示了较高的确定性。  相似文献   

18.
本文采用荧光光谱法对清热散结胶囊的荧光性质进行了研究,对三维荧光图谱测定的实验条件进行了优化,在最佳实验条件下测定了2个厂家14个批号的清热散结胶囊的三维荧光图谱,利用聚类分析法对清热散结胶囊的三维荧光图谱的一致性进行分析,结果表明2个厂家14个批号的56个清热散结胶囊样本的三维荧光图谱一致性良好。采用平均值法建立了清热散结胶囊的三维荧光指纹图谱。  相似文献   

19.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

20.
针对传统SVR(Support Vector Regression)及其相关改进模型在不同时间阶段的能源消耗样本数据具有差异较大的不同函数规律或分布特征的条件下,难以进行合理预测这一问题,提出了基于优化AP(Affinity Propagation)聚类算法的AP-SVR模型。首先,在滚动预测的算法框架下建立了运用能源消耗累积规律进行预测的模型,并对AP聚类算法进行了优化;其次,结合优化AP聚类算法构建了最优化训练集,并运用SVR得到预测结果。算例分析表明,AP-SVR模型可有效识别样本训练集中能耗数据累积规律的差异,将聚类为同一类别数据作为训练集的条件下,SVR的拟合精度得到明显提升。通过多种模型计算效果的比较发现,剔除不同类型数据后的训练集明显更加适合于SVR模型的预测,在降低预测误差和改善预测结果可信度等方面优化了模型预测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号