首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对决策信息为区间数形式的不确定多属性决策问题,将密度中间算子由精确值形式拓展到区间数形式.通过引入"区间隶属度"的概念对区间数进行聚类,并给出一种通过规划模型确定密度加权向量的方法;在此基础上,对区间数密度中间算子及其合成算子进行了界定.最后,通过一个算例对区间数密度算子的应用进行了说明.该方法结合区间数的特征,进一步拓展了密度算子的理论体系和实际应用范围.  相似文献   

2.
将随机森林的相似度矩阵看做一种特殊的核度量,利用该度量对模型参数的鲁棒性和特征变化的敏感性,提出一种特征选择的方法.采用相似度矩阵,计算训练样本类内和类间相似性比率.再利用特征值随机置换技术,将相似性比率的变化量作为特征重要性度量指标,从而对所有特征进行排序.试验结果表明,该方法能充分利用全部样本的信息,有效地进行特征选择,且其性能优于基于袋外数据误差率估计的特征选择方法.  相似文献   

3.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

4.
在工程与管理评价决策中用区间数刻画事物属性特征大小是一种符合认知模糊性和统计学原理的有效方法。用区间数相似度刻画不同区间数的相似性,在不确定环境下决策过程中具有十分重要的作用。事物属性在取值区间内所服从的分布,不仅能呈现取值的不确定性,而且可刻画评价者或评价群体的偏好和风险态度。文中定义区间数相似度为两独立随机变量取值于两个区间交集的概率,运用概率论的方法,构建了任意分布条件下区间数相似度计算模型,推广了以往学者的研究成果。然后,为了简化而又最大可能地保留评价与决策的信息,构建了三角型分布条件下区间数相似度计算模型,并将其与多属性决策TOPSIS方法相结合,构建了基于区间数相似度的多属性评价与决策方法,通过被决策单元与正、负理想解的每个属性的取值区间数相似度,建立综合评价矩阵,很好地实现了被决策单元的优劣排序。通过实例计算,充分验证了模型的可计算性,并呈现了三角型分布下区间数相似度计算模型刻画评价者或评价群体的偏好和风险态度的优良性。显然,该理论方法将在工程与管理评价决策中具有较好的应用价值。  相似文献   

5.
针对制造企业低碳生产行为表现评价中面临信息不完全、不精确等情况,提出一种不完全信息下基于证据理论与向量相似度的低碳生产行为表现排序方法.在构建制造企业低碳生产行为表现评价指标体系基础上,以评价等级为识别框架,运用证据理论分析算法对评价信息进行融合,并将分析结果转化为区间数,通过构造向量相似度方法对区间数进行排序,得到评价结果.最后通过算例说明了该方法的可行性,以及不完全信息处理的有效性.  相似文献   

6.
一种向量空间模型中对特征项的改进方法及应用   总被引:1,自引:0,他引:1  
针对传统VSM方法中选取特征项的不足之处,在文本相似度计算研究领域中中,提出了一种新的特征项选取方法--用语言片段作为特征项.介绍了选取语言片段作特征项方法的实现过程,分析了该方法的必要性与可行性,通过计算在受限语境下文本的相似度的实验,测得系统判分正确率为85.24%.与同类系统进行对比实验,发现该方法在受限语境下表现稍好.  相似文献   

7.
基于知网语义相似度计算的特征降维方法研究   总被引:8,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

8.
根据Vague集和Vague软集的理论,提出了一种计算Vague软集相似度量的公式,构造了一种工程项目造价的快速估算模型.首先确定工程项目的特征集,建立典型工程的特征矩阵,然后利用区间数转换成典型工程对拟估工程的Vague集隶属度矩阵,再根据Vague软集相似度量的公式,计算出典型工程与拟估工程的相似度,最后由相似度最大的典型工程来计算拟估工程造价.通过实例验证了该模型的合理性、有效性.  相似文献   

9.
为解决小样本回归时引起的过学习问题并提高回归精度,提出一种基于非线性空间特征选择的支持向量机.该方法依据矩阵相似度量或从研究的实际问题出发,绕过核技巧,直接将原始输入空间映射为适宜的非线性空间.该方法运用遗传算法在维数较多的非线性空间中搜索对输出影响最大的一些特征,达到降低输入空间维数的目的,从而避免过学习问题,并可获得简明的非线性回归函数.  相似文献   

10.
针对区间值模糊集相似度公式只是经验公式并没有理论依据问题.建立了区间值模糊集新的截集概念,研究了相似度计算方法.结果表明:所建立的新截集概念是以往截集概念的推广.在新截集理论的基础上,进一步给出了区间值模糊集的分解定理;根据该截集发展出一种推导区间值模糊集相似度的方法,建立了模糊集相似度与区间值模糊集相似度之间的联系,可进一步应用到模糊风险分析研究中.  相似文献   

11.
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS.该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征.采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能.实验一:当特征数量由6 000减少到1 047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降.实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法.  相似文献   

12.
针对基于流形正则化自表示(MRSR)的无监督特征选择算法直接从原始的样本空间构造相似矩阵可能会 导致重构空间中样本的相似性描述得不够准确的问题,提出了基于自适应流形正则化自表示的无监督特征选择 (AMRSR)算法。 基于自适应流形正则化自表示的无监督特征选择算法在 MRSR 算法的基础上通过对相似矩阵施 加概率最近邻约束将相似矩阵的学习嵌入到优化过程中,在重构空间中自适应地学习样本的相似性,使得在每一 次迭代中获取更加精确的样本局部几何流形结构,从而选择具有代表性且保持局部几何流形结构的特征。 最后, 在四个公开数据集上进行了大量的对比实验,通过将算法的特征选择结果用于 K-means 聚类并采取两种常见的聚 类评价指标:聚类精确度和归一化互信息评价聚类效果。 实验结果表明,AMRSR 算法与现有的一些算法相比有更 高的聚类精确度和归一化互信息,进一步表明该算法特征选择效果更好。  相似文献   

13.
为了解决短文本因特征关键词稀疏而导致文本向量概念表达不够准确的问题,本文提出概念属性扩展特征关键词短文本聚类算法——STCBCFE(Short Text Clustering Based on Concept Feature Ex-pansion)。该算法通过HowNet的概念属性扩展特征关键词,以此增加文本语义特征和反映文本主题的特征关键词数量,进而提高短文本相似性;将其应用于短文本聚类,能够提高短文本的聚类效果。实验结果表明,该算法在短文本聚类的查准率和查全率上都得到了较大的提高。  相似文献   

14.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

15.
A new feature selection method is proposed based on the discern matrix in rough set in this paper. The main idea of this method is that the most effective feature, if used for classification, can distinguish the most number of samples belonging to different classes. Experiments are performed using this method to select relevant features for artificial datasets and real-world datasets. Results show that the selection method proposed can correctly select all the relevant features of artificial datasets and drastically reduce the number of features at the same time. In addition, when this method is used for the selection of classification features of real-world underwater targets,the number of classification features after selection drops to 20% of the original feature set, and the classification accuracy increases about 6% using dataset after feature selection.  相似文献   

16.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

17.
针对基于连续区间Pythagorean模糊相似测度的多属性群决策问题,首先,提出连续区间Pythagorean模糊有序加权平均(C-IVPFOWA)算子;然后定义一种新的连续区间Pythagorean模糊相似测度,并研究该相似测度的优良性质;接着,基于连续区间Pythagorean相似测度构建决策者权重和属性权重非线性优化模型,同时提出基于新的连续区间Pythagorean相似测度的多属性群决策方法;最后,通过智能家居工程案例验证所提出方法的可行性和有效性.  相似文献   

18.
针对航空器轨迹聚类没有充分利用目标的速度、航向等多维特征信息,在发掘轨迹聚类中存在局限性,提出基于多维特征的航空轨迹聚类方法并基于统计学方法完成异常检测。通过散点相似矩阵确定多维特征,利用多维特征构建多维特征相似矩阵,完成对轨迹的聚类,引入航转角和特征点选择特征轨迹,用多元拟合模型对特征轨迹点拟合,得到航空器特征轨迹表达式,通过计算实验轨迹与位置特征表达式的距离是否大于95%的置信区间距离,完成异常轨迹的检测。在天津机场用ADS-B数据进行实验,比较结果表明具有一定可行性。  相似文献   

19.
广义邻域粗集下的集成特征选择及其选择性集成算法   总被引:1,自引:1,他引:0  
针对实际模式识别系统中样本特征常具有的连续值属性、高维性、强相关性和冗余性等影响分类效果的问题,在广义邻域粗集模型下提出一种集成特征选择及其选择性集成算法.该算法先提取样本特征并利用所提出的马氏距离分布熵评估其重要度,再基于特征重要度构建广义邻域粗集模型,并在此模型上以特征重要度为启发式信息设计基于蚁群算法的属性约简算法,然后通过改变广义邻域粗集模型参数的方式获得更多具有更大差异性的基分类器,最后利用主成分分析法对产生的基分类器进行选择性集成.模拟电路故障诊断结果表明,该算法比AdaBoost等算法取得的分类精度至少提高了2.6%.  相似文献   

20.
In this paper we propose a multiple feature approach for the normalization task which can map each disorder mention in the text to a unique unified medical language system (UMLS) concept unique identifier (CUI). We develop a two-step method to acquire a list of candidate CUIs and their associated preferred names using UMLS API and to choose the closest CUI by calculating the similarity between the input disorder mention and each candidate. The similarity calculation step is formulated as a classification problem and multiple features (string features, ranking features, similarity features, and contextual features) are used to normalize the disorder mentions. The results show that the multiple feature approach improves the accuracy of the normalization task from 32.99% to 67.08% compared with the MetaMap baseline.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号