首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。  相似文献   

2.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

3.
分析量子势能、量子力学中粒子分布机制和针对分类属性数据的量子聚类CQC算法,发现该算法采用传统的Hamming相异性测度计算分类属性数据间的相异性测度,忽略分类属性取值自身的涵义和值间的特征关联,导致其聚类准确性较差.提出一种改进的MCQC算法,能根据数据对象的关联情况计算同属性不同值间的相异性,计算数据对象间的相异性测度,从而提高聚类准确率.仿真实验采用3个数据集,即:大豆疾病、国会投票真实数据集和从KDD-CUP99训练样本集抽取离散属性维构成的人造样本集.实验结果表明,该算法是有效且可行的,对分类属性、二值属性和混合属性数据的聚类准确率明显高于CQC算法.  相似文献   

4.
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高.  相似文献   

5.
一种基于密度的启发性群体智能聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的启发性群体智能聚类算法.针对以往群体智能聚类算法中分类错误率较高、算法运行时间较长等不足,提出记忆体方法和基于密度的先行(look ahead)策略.用人工数据集和真实数据集进行实验,将实验结果进行比较分析.分析结果表明,基于密度的启发性群体智能聚类算法能够得到令人满意的聚类结果,其分类错误率和运行时间明显小于其它聚类算法.  相似文献   

6.
模糊C-means算法是一种重要的聚类分析算法,但是在数据维数较高的情况下,该算法计算量急剧上升从而导致其效率较低.针对这一问题,提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法在传统模糊C-means算法的基础上引入了粗糙集属性约简的理念,通过对数据集属性的约简,提取出对分类影响较大的属性集而摒弃与分类无关的属性,进而在聚类过程中只计算属性约简结果集中的属性,从而减少聚类过程的工作量、提高聚类效率.理论分析和实验结果表明,该算法在处理高维数据时较高效.  相似文献   

7.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义;然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强的抗噪声能力;最后结合应用领域定义一种新的聚类质量评价模型.实验证明,该算法可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征.  相似文献   

8.
Takagi-Sugeno-Kang(TSK)模糊系统的一致逼近能力和可解释性使其可以直观高效地描述复杂的非线性不确定系统,可以有效地应用于模式分类.然而,对于单调分类任务,现有的模糊分类算法并没有考虑单调数据存在的有序关系,因此这些算法对于单调分类任务在模型的复杂度和分类性能方面有待改进.针对此问题,提出了面向单调分类的简洁单调TSK模糊系统建模方法(Concise Monotonic TSK Fuzzy System for Monotonic Classification,CM-TSK-FS),引入有序互信息进行单调特征选择,然后利用抽取的特征来训练TSK模糊系统进行分类识别.该方法有如下优点:(1)由于对单调数据进行了特征选择,新方法降低了TSK模糊系统规则的复杂性,因而得到的模糊系统更加简洁;(2)由于在特征抽取时考虑了单调数据的特征值和决策值之间的单调性,使得训练的模型的分类性能也有了一定程度的提高.在多个单调数据集上进行了实验验证,实验结果表明:面向单调分类的简洁单调TSK模糊系统在处理单调数据集时,通过选取重要的单调数据特征,不仅可以降低其模型的复杂性,还可以提高分类精度.  相似文献   

9.
将神经网络与数据集的密度指标结合起来提出一种山峰-减法聚类神经网络方法,利用数据集的密度指标对基类进行合并,并不断重复直至产生足够多的聚类中心,就可完成对聚类神经元的学习。给出该聚类的神经元模型和学习算法。该方法的主要优点是对于工程应用中的大样本集分类和重叠数据的模式分类问题,显得非常有效。  相似文献   

10.
针对样本基数较大、 维数较高、 特征较复杂的数据集训练问题, 将支持向量机与蚁群优化算法相融合, 提出一种自适应多核学习算法. 利用吸引子传播聚类算法自适应地发现相似特征, 并据此利用蚁群算法自适应地选择核函数参数, 从而快速选择最优核函数. 通过UCI数据集的5组数据实验表明, 该算法相比于传统的支持向量机分类准确率和F1值更高, 验证了该算法的有效性和可行性.  相似文献   

11.
针对多标签分类问题,提出了一种面向样本不均衡及类属不确定性的多标签分类算法。首先,结合“一对一”分解策略和贝叶斯理论,将多标签数据集分解为单标签数据子集,并利用Parzen窗方法估计子集样本后验概率,对类标签进行了基于概率的不确定性表示。然后,在融合概率类标签和LS-SVM模型的基础上,利用样本差异信息来调节惩罚参数值,建立了考虑样本不均衡的概率LS-SVM子分类器模型。依据正态分布的3σ原理,设计了子分类器决策阈值确定方法。最后,结合实例对算法进行了性能分析,结果证明了新算法的合理性和有效性。  相似文献   

12.
针对传统特征参数难以表征复杂体制雷达信号个体特征的问题,基于深度置信网络DBN的深层特征提取和高维数据处理能力,提出一种基于DBN特征提取的雷达辐射源个体识别算法。首先建立基于多层受限玻耳兹曼机的DBN模型,然后通过DBN无监督提取脉冲包络前沿特征,再利用标签数据对模型参数进行有监督微调完成训练,最后输入未知辐射源信号脉冲包络前沿特征实现辐射源个体识别。与传统算法相比,该方法能够自适应地提取脉冲深层次细微差异,提取过程减少了对人为经验的依赖。实验结果表明,该算法对脉冲包络特征提取效果明显,有较高的识别精度。  相似文献   

13.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的.  相似文献   

14.
多标签特征选择能够有效去除冗余特征并提升分类精度, 是解决"维数灾难"问题的有效方法. 然而, 已有的多标签特征选择算法是对所有标签选择出相同的特征, 忽略了标签与特征之间的内在联系. 事实上, 每个标签都具有反映该标签特有属性的特征, 即类属特征. 提出一种基于图拉普拉斯的多标签类属特征选择(multi-label label-specific feature selection based on graph Laplacian, LSGL)算法. 对于每个类别标签, 基于拉普拉斯映射获得数据的低维嵌入, 再通过稀疏正则化获得数据空间到嵌入空间的投影矩阵, 接着通过分析矩阵系数确定每个标签相应的类属特征, 最后使用类属特征进行分类. 在 5 个公共多标签数据集上的多标签特征选择与分类实验结果证明了所提算法的有效性.  相似文献   

15.
为了提高基于油中溶解气体分析(dissolved gas analysis, DGA)的变压器故障诊断正确率,弥补单子空间特征提取的局限性,提出了基于双子空间特征提取的变压器故障分层诊断模型.首先,将DGA测试样本在一个子空间内进行特征提取后,为避免核函数及其参数的选择难题,以及利用多核支持向量机(multiple-kernel support vector machine, MKSVM)鲁棒性强和精度高的特点,采用MKSVM作为分类器对测试样本进行预测.依据预测结果将测试样本分为难分类和易分类样本,对易分类样本直接进行分类识别;对难分类样本则将该样本再次投影到另一子空间进行特征提取后,同样采用MKSVM作为分类器对难分类样本进行预测,综合两次预测结果进行分类识别,实现两分类MKSVM的双子空间特征提取算法.最后,根据故障特征,建立基于双子空间特征提取算法的变压器故障分层诊断模型.诊断实例表明,该模型具有较高的诊断正确率和推广能力.  相似文献   

16.
由于右心室具有易变、壁薄、边界不明显等特点,Atlas成为近年来流行的图像分割方法.针对现存的Atlas选择方法大多基于配准后选择最优的Atlas,比较耗时并且降低了分割性能,提出了利用仿射传播聚类算法进行Atlas选择的方法.首先,将所有的Atlas图像看作一系列数据点,通过数据点之间的消息传递聚类;然后,得到的聚类中心图像和目标图像经过配准得到形变标记结果,采用STAPLE融合策略融合;最后,对融合结果以相似性测度因子为依据进行排序,而用相似性测度因子值最大的聚类中心进行配准分割.重复以上过程,直到得到较精确的分割结果.实验结果表明,提出的方法能有效地进行右心室的分割,与传统选择方法相比,分割精度得到了明显提高.  相似文献   

17.
由于传统KNN算法在应用于高分辨一维距离像进行目标识别时,存在全局使用固定k值和未考虑各特征分量对分类的影响等不足,使得目标识别性能较差.提出一种改进的KNN算法:FLAKNN.通过提取目标高分辨率一维距离像的尺寸、熵、中心距、不规则度、去尺度特征、对称度等稳定特征,使用Fisher判别分析将所有特征分量投影至低维空间,使不同类别间具备最大可分性;结合相邻样本局部的分布情况和k取值的调整,最终使用少数服从多数的投票原则决定测试样本的类别.结果表明,相对传统KNN算法,该算法进一步提升了识别性能.   相似文献   

18.
提出了一种基于双向长短期记忆网络和标签嵌入的文本分类模型。首先利用BERT模型提取句子特征,然后通过BiLSTM和注意力机制得到融合重要上、下文信息的文本表示,最后将标签和词在联合空间学习,利用标签与词之间的兼容性得分对标签和句子表示加权,实现标签信息的双重嵌入,分类器根据给定标签信息对句子进行分类。在5个权威数据集上的实验表明,该方法能有效地提高文本分类性能,具有更好的实用性。  相似文献   

19.
针对基于卷积神经网络的行人重识别算法全局信息建模不足的问题,分析了卷积操作的局限性,提出一种基于Transformer改进的全局-局部两分支行人重识别算法.首先利用相对位置编码改进多头自注意力机制,并将其嵌入到Resnet50骨干网络中.之后在全局分支中对图像进行空间几何划分并利用Transformer的全局感受野增强抽象特征的提取能力;在局部分支中对Layer_3输出进行降维监督,利用多尺度池化获得更丰富的局部特征.实验结果表明,该算法在公开数据集Market-1501和DukeMTMC-reID上的mAP/Rank-1分别达到了93.45%/95.61%和88.79%/90.35%,相对于单纯基于卷积神经网络的算法,本文算法达到更高的精度.  相似文献   

20.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号