首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
传统的互信息特征选择方法受边缘概率的影响较大, 可能产生稀有词的概率评估分高于常用词的评估分, 从而导致倾向于选择低频词条的现象。为此,在分析了几种传统的特征提取方法基础上, 通过引入分散度及平均词频两个参数, 将互信息方法与特征的词频相关联, 从而使互信息的分类更加准确。实验结果表明, 该方法使分类效果更好。  相似文献   

2.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

3.
一种改进的互信息特征选取预处理算法   总被引:4,自引:1,他引:3  
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度。  相似文献   

4.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

5.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

6.
结合优化文档频和变精度粗糙集的特征选择方法   总被引:1,自引:0,他引:1  
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好.  相似文献   

7.
基于互信息和文化基因算法的网络流量特征选择   总被引:1,自引:0,他引:1  
利用文化基因框架的引导,提出一种结合了封装和过滤的混合型特征选择算法.该算法在传统的遗传算法中采用了基于互信息的局部搜索算法,全局搜索以分类器精度为适应度函数,保证得到全局最优解;局部搜索以联合互信息为评价指标,加快了寻找最优特征子集的收敛速度.实验表明,与现有算法相比,该算法在特征数量和计算复杂度上有显著改进,采用该算法的网络流量识别方法能以更少的特征获得更高的分类精度.  相似文献   

8.
传统的TF-IDF算法主要依赖词频,往往忽略词语语义和一些具有重要意义的副词。针对这一问题,提出了一种基于语义分析的改进TF-IDF算法。该方法融入了词语语义来计算词频,改进了反义词语之间的相似度。实验结果表明,该方法在计算句子相似度中能根据语义方向对句中各词语词频进行统计,同时判断整个句子语义方向,与传统算法比较,语句相似度的准确性提高了5. 7%。  相似文献   

9.
基于改进互信息的特征提取的文本分类系统   总被引:2,自引:0,他引:2  
文章提出并实现了一种改进互信息的特征提取和支持朴素贝叶斯的文本分类系统,改进的互信息算法加强了负值单词的互信息值,弥补了原来互信息预处理算法的不足,从而提高了分类精度.实验结果表明本算法和系统具有较高的分类准确率。  相似文献   

10.
最大熵方法中特征选择算法的改进与纠错排歧   总被引:2,自引:0,他引:2  
对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入有效特征集,且不是每选一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算法有效.  相似文献   

11.
否定词与程度词连用可形成两种语序:“否定词+程度词+V”(I式)与“程度词+否定词+V”(II式)。与普通话相比,湘方言中的I式和II式在句法形式、语义特征以及使用频率等方面都有一定差异,并形成了不同的不对称分布格局。  相似文献   

12.
研究目的:以往研究发现链霉素作为牵张激活离子通道阻断剂,可抑制机械电反馈时心脏的电生理效应,但多为离体研究。由于慢性心肌梗死时心肌细胞问存在较为明确的牵拉,故本研究探讨了在大鼠体内应用链霉素是否可以抑制慢性心肌梗死大鼠心脏牵张诱导的电生理改变。创新要点:首次探讨了在大鼠体内应用链霉素对慢性心梗时心脏机械电反馈现象的影响。研究方法:60只Wistar大鼠随机分为4组:对照组(n=15)、链霉素组(n=15)、心梗组(n=15)和心梗±链霉素组(n=15)。结扎左前降支(LAD)8周制备慢性心梗模型,术后肌注链霉素(180mg/(kg·d)7天后,钳夹主动脉5秒牵张心脏,观察牵张效应包括90%单相动作电位时程(MAPD90)、室性期前收缩(PVB)、室性心动过速(VT)等。重要结论:研究结果发现牵张使得对照组((50.27±5.61)msVS.(46.27±4.51)ms,P〈0.05)和心梗组((65.47±6.38)ms vs.(57.47±5.76)ms,P〈0.01)大鼠心脏MAPD90缩短。链霉素可抑制牵张引起的正常((46.27±4.51)ms vs.(49.53±3.52)ms,P〈0.05)和梗死心肌((57.47±5.76)ms vs.(61.87±5.33)ms,P〈0.05)MAPD90的缩短(见图1)。牵张后心梗组大鼠心肌PVB(7.93±1.66VS.1.80±0.86,P〈0.01)和VT(7 vs .1,P〈0.05)的发生较对照组增多。链霉素可抑制正常(0.93±0.59VS,1.80±0.86,P〈0.05)和梗死心肌(5.40±1.18VS,7.93±1.66,P〈0,01)PVB的发生。以上结果表明,牵张诱导慢性梗死心肌出现MAPD90的改变并产生心律失常。在大鼠体内应用链霉素可降低PVB的发生但对VT无影响。因此,牵张激活离子通道可能参与到慢性心梗的机械电反馈中,涮时可能有其他机制参与到牵张诱导的VT中。  相似文献   

13.
文章通过对藏文编码国家标准(GB)藏文信息系统之上的藏文排序问题进行研究,提出了基于藏文编码国家标准(GB)的藏文音节及词的排序方法,并给出相应的排序算法,测试结果良好。  相似文献   

14.
释“翦爪”     
“翦爪”一词在古代文献中较为多见,但仅个别辞书收有此词,如《汉语大词典》等。而《汉语大词典》也未解释其具体词义,只简单交代“翦爪”是用为祈雨的典故。文章主要从文化背景的角度,探讨“翦爪”的词义,以期能让我们对“翦爪”有更为全面的了解。  相似文献   

15.
提出一种新的文档表示模型——基于共现词对的向量空间模型。模型以文档中共现的词对为基本考察对象,通过统计学特征选择有代表性的词对来表示文档。基于覆盖算法的文本分类实验表明此模型有较强的文档表示效果,为文本自动化处理提供了一条新思路。  相似文献   

16.
对硬簇麦与Am3的杂交后代进行白粉病抗性鉴定,从中选出9个抗白粉病的种质系。形态学鉴定结果表明,9个种质系的形态学特点明显不同于双亲,主要农艺性状表现较好。细胞学鉴定结果表明,9个种质系的根尖细胞染色体数目均为42,花粉母细胞减数分裂中期I基本形成21个二价体,偶尔有单价体或多价体出现,但频率较低,相对紊乱系数较小,说明9个种质系在细胞学上已基本稳定。  相似文献   

17.
明清吴语文献中有一类读音为“咿”的“咿”类字,有“以”“夷”“伊”“亦”“咿”“”“咦”等多种写法,其意义、用法与现代汉语普通话中的“又”相同。通过对历史文献中有关吴语“又”字读音记载的分析,联系语音演变发展的规律,并结合现当代吴语区松江、上海、苏州、温州等地方言“又”的读音,可知“咿”类字其实是“又”的方言记音字。“又”“来”等上古之部某些字在现当代吴语一些地区韵母仍读[i]音。  相似文献   

18.
本文从文字演变的角度出发,结合词汇、语法和文化知识,重新训释了《汉书》的两个文字,认为"今其甚者杀父兄"的"甚"是"揕"的记音字;"其冤死者多少相覆"的"少"是"尸"的讹体字,这句话应标点为"其冤死者多,尸相覆。"并认为在汉代偏义复词的"多少"并未产生。  相似文献   

19.
为了在OFDM系统中实现符号定时偏差(STO)和载波频率偏移(CFO)的精确同步,阐述了OFDM的基本原理,建立了SIMULINK系统仿真模型,研究了OFDM系统中的最大似然估计(ML)算法,并使用数据循环移位以及多符号联合估计技术对ML算法进行了改进,形成新的迭代算法。仿真结果显示,在AWGN信道中,该算法可以有效提高STO和CFO的估计性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号