首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 478 毫秒
1.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

2.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

3.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

4.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

5.
基于量子机制的改进的分类属性数据聚类算法   总被引:1,自引:1,他引:0  
分析量子势能、量子力学中粒子分布机制和针对分类属性数据的量子聚类CQC算法,发现该算法采用传统的Hamming相异性测度计算分类属性数据间的相异性测度,忽略分类属性取值自身的涵义和值间的特征关联,导致其聚类准确性较差.提出一种改进的MCQC算法,能根据数据对象的关联情况计算同属性不同值间的相异性,计算数据对象间的相异性测度,从而提高聚类准确率.仿真实验采用3个数据集,即:大豆疾病、国会投票真实数据集和从KDD-CUP99训练样本集抽取离散属性维构成的人造样本集.实验结果表明,该算法是有效且可行的,对分类属性、二值属性和混合属性数据的聚类准确率明显高于CQC算法.  相似文献   

6.
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

7.
应用特征聚合进行中文文本分类的改进KNN算法   总被引:14,自引:0,他引:14  
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率  相似文献   

8.
在数据挖掘的过程中,由于贝叶斯分类算法要求条件属性必须独立,因此具有一定的局限性.考虑该缺陷,提出用数据挖掘中另一种常用聚类算法对原始数据的条件属性进行数据预处理后,再使用贝叶斯算法.实验表明该算法提高了分类的准确率.  相似文献   

9.
针对绿色工艺评价样本具有不确定性、多维性以及量纲差异大的特点,为实现样本的合理分类,提出一种基于核的模糊可能性聚类新算法.该方法将核模糊聚类算法、可能性聚类算法和减法聚类算法相结合,以提高聚类的准确率;使用聚类有效性指标作为分类条件,自适应确定最佳分类数.仿真实验结果表明,该算法具有较好的有效性和鲁棒性,并将该算法运用在绿色工艺评价样本分类中,得到了较好的分类效果,验证了算法的实用性.  相似文献   

10.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

11.
在准静态框架下,动态参数由权重函数、动力学量算符、形状函数的卷积得到.传统方法的权重函数并不能满足外源驱动次临界系统的中子动力学分析的要求.基于改进的准静态方法,选取临界权重函数模型和全局稳态权重函数模型分别计算一维次临界平板堆启堆过程和断束工况下的中子动力学结果,通过与时空动力学方程直接求解结果对比来深化对权重函数的认识:在外源驱动次临界系统中,权重函数应具有"次临界堆中子价值"物理意义;共轭外源项表征了堆芯内某一位置对外源中子的响应,与外源中子在该位置存在的概率有关.在此基础上提出的局部稳态权重函数模型,用裂变因子乘以权重系数作为共轭外源项.实践表明,采用局部稳态权重函数模型获取的中子动力学结果的准确性得到了提升.  相似文献   

12.
研究如下非线性伪抛物方程组柯西问题解的全局存在性,u_t-Δu_t=Δu+u~αv~p,v_t-Δv_t=Δv+u~qv~β,这里p,q≥0,α,β≥0.首先应用压缩映射原理得到解的局部存在性,之后运用上下解方法研究α,β≤1,pq≤(1-α)(1-β)时解的全局存在性.  相似文献   

13.
为解决当前方法信息融合效果差、信息融合时延长的问题,提出基于格网系的无线网络多信道信息融合方法。采用模糊理论中的相关函数对无线网络传感器的支持度进行计算; 在格网系的设计下,利用知识元模型获取信息的融合集,并将其实例成信息单元,为无线网络多信道信息融合提供基础; 最后,在熵权法基础上,引入对无线网络多信道信息之间欧氏距离的测度,利用距离熵的概念获取信息的全局和局部融合权重,采用线性加权法对信道信息的全局和局部融合结果进行计算,最终实现了对无线网络多信道信息的融合。实验结果表明,所提方法在对无线网络多信道信息融合时,信息融合效果较好,并且信息融合时延短、实时性好,具有较高有效性和可行性。  相似文献   

14.
提出在WLAN中使用TDOA定位方法的Chan算法对移动终端进行位置估计,然后对位置估计结果使用残差加权算法进行NLOS误差抑制。通过仿真证明,尽可能选择不受NLOS影响的时间测量值参与Chan算法和残差加权算法,通常能以较小的计算代价取得相对理想的定位精度。并在数学理论上证明了可将Wylie方法用于NLOS误差排序,以挑选出合适的时间测量值。  相似文献   

15.
 为了研究等离子体物理中Zakharov方程组数值方法解的适定性,本文针对Zakharov方程组的周期初值问题,首先在[0,T]上建立了半离散的Fourier谱格式;然后,证明了半离散Fourier谱格式具有守恒性质;最后,利用守恒性质对方程组的近似解进行先验估计,得到了整体解的存在性。  相似文献   

16.
文章给出局部亚紧性、基局部亚紧及邻域开包局部亚紧空间的概念,建立起这类空间并刻画它的特征性质,获得这类空间的开或闭子空间遗传保持性和拓扑不变性质。即这类拓扑空间的性质是开,闭可遗传性质以及两个拓扑空间在连续开满映射下具有其上述性质是保持的,即拓扑不变性。  相似文献   

17.
为实现机器视觉代替人眼观察、 认知世界以及减少背景和噪声对视频中人体特征提取的影响, 以提高识别效果, 在研究人体动作表征与识别的基础上, 充分考虑局部和全局特征的优缺点, 提出了基于局部时空兴趣点和全局累积边缘图像特征相结合的人体行为分析方法。首先, 从视频序列中提取局部时空兴趣点和全局累积边缘图像特征; 然后用加权字典向量法将两者有机地结合在一起; 最后利用最近距离法进行人体行为分析和识别。该方法可有效获得人体时空特征, 人体边缘轮廓
, 人的运动趋势和强烈程度。实验结果表明, 该方法快速, 相比其他算法识别率大致提高了2%~5%。  相似文献   

18.
风险型多属性决策的一种求解方法   总被引:2,自引:1,他引:1  
在属性取值的分布函数已知的假设条件下,给出了风险型多属性决策问题的一种求解方法.通过随机变量取值大小的比较,利用概率指标描述方案在同一属性下的优劣程度;基于加权的思想,将方案在各属性下的优劣程度集结得到方案间的总体优劣程度,并建立方案两两比较的可能度矩阵——模糊互补判断矩阵.据此得到方案的排序结果.该方法直观、简便,而且不要求对风险决策矩阵进行规范化.最后,把属性值为区间数的多属性决策问题作为风险型多属性决策问题的特例,给出了算例.  相似文献   

19.
无单元伽辽金法新形函数技术   总被引:1,自引:0,他引:1  
针对目前以移动最小二乘技术构造的无单元形函数需要大量的求逆运算,且在边界处无过点插值性质而给计算带来了困难的问题,以泰勒展开理论为基础,继承最小移动二乘法的高阶连续性,用Shepard插值实现"移动最小二乘法的由局部到整体区域的移动性"及"有限元法形函数过点插值性",旨在使无单元伽辽金法的形函数在满足高阶连续性的同时具有过点插值的性质,并避免了现有无单元伽辽金法形函数求解繁琐的缺点.  相似文献   

20.
为了得到谐波激励下本质非线性能量阱系统出现强调制响应的充要条件,开展非 线性能量阱系统的强调制响应研究 . 利用复变量平均法推导主共振下系统的慢变动力流方 程;结合多尺度法实现系统快、慢变流形的分离,得到不同参数下系统的慢不变流形以及全局 分岔特性;通过构建快变流形的一维映射函数,揭示非线性能量阱系统呈现强调制响应状态 的充要条件;搭建非线性能量阱系统的模拟电路,进行强调制响应检测电路试验. 仿真和试验 结果表明,强调制响应是由耦合系统慢变动力流中极限环的鞍结分岔引起的且真实存在,系 统出现稳定的强调制响应必须满足两个条件:一是非线性能量阱系统响应超越慢不变流形上 的极值点,又不吸引至慢不变流形某一分支;二是形成连续跳跃环路而不陷入局部循环时.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号