共查询到20条相似文献,搜索用时 98 毫秒
1.
中文文本分类技术比较研究 总被引:2,自引:0,他引:2
胡龙茂 《安庆师范学院学报(自然科学版)》2015,(2):49-53
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。 相似文献
2.
一种组合型中文文本分类特征选择方法 总被引:1,自引:1,他引:1
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。 相似文献
3.
由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。 相似文献
4.
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性,这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录。 相似文献
5.
中文文本分类相关算法的研究与实现 总被引:2,自引:0,他引:2
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
实验结果表明, 改进后的权重计算方法性能更优越. 相似文献
实验结果表明, 改进后的权重计算方法性能更优越. 相似文献
6.
7.
针对中文网页分类问题,提出一种基于KM和CV的KNN改进算法——KNC算法.基于该方法的网页分类实验结果表明,KNC算法在保持分类质量的情况下,较大地提高了分类的速度. 相似文献
8.
通过Timer(计时器 )对象的TimerEvent事件 ,结合表单的标题对象Label(标签 )的Left属性 ,达到使表单的标题Label(标签 )由右至左往复移动的效果 相似文献
9.
相似度度量是基于邻居的协同过滤推荐算法中的关键步骤,对推荐结果的优劣有至关重要的影响。基于Bhattacharyya系数的相似度度量方法虽然解决了依赖于共同评分的问题,但忽略了评分值绝对数量对结果的影响。同时,当项目间相同评分值数量占比小时,基于Bhattacharyya系数的相似度度量方法存在计算准确性差的缺点。为此,引入Laplace校准法和权重赋值法对该相似度度量方法进行改进。改进后的方法不仅克服了原方法的不足,而且还充分利用所有评分信息,提升计算的准确性。数据实验结果表明,提出的相似度度量方法性能优于改进前的算法及传统的度量方法。 相似文献
10.
面向表单的对象模型的研究 总被引:1,自引:0,他引:1
在企业软件的开发过程中,现有的各种建模方法均不能有效的与用户进行沟通,所以迫切需要一种能够顺利解决这一问题的建模方法。基于这种要求,提出并实现了面向表单的建模方法。该种建模方法简单明了,能够很好解决与用户的交流问题,同时其能够自动生成底层数据库及最终代码,可以大大的提高软件开发的效率和系统的稳定性、可扩展性、可维护性和安全性。 相似文献
11.
12.
基于遥感影像的最大似然分类算法的探讨 总被引:10,自引:0,他引:10
通过对最大似然分类算法的研究,并将其与马氏距离分类法在相同情况下进行对比试验,结果表明,最大似然分类方法对于光谱特性呈正态分布的遥感影像能提供较高的分类精度,而对于光谱特性呈非正态分布或偏离正态分布总体的遥感影像,最大似然分类法的实际分类效果并不理想,进而分析最大似然分类法的适用性. 相似文献
13.
增强LLE特征分类性能的人脸识别 总被引:1,自引:1,他引:0
为了增强局部线性嵌入(LLE)特征的可分类性,提出一种应用LMNN算法改善LLE特征分类性能的人脸识别方法.LMNN算法寻求一个线性变换,变换空间的欧氏距离等价于原始空间的马氏距离,马氏距离增强了LLE特征的kNN分类性能.在ORL数据库和扩展的YaleB数据库上进行实验,并与其他方法进行了比较.实验结果验证了该算法的有效性. 相似文献
14.
《河南师范大学学报(自然科学版)》2017,(5):7-13
设M~n是(n+1)维Lorentz空间形式M_1~(n+1)(c)中无脐点类空超曲面.在M_1~(n+1)(c)的共形变换群下,M~n上的3个基本的共形不变量分别是:共形1-形式C,共形2-张量A,共形度量g.用κ表示共形法化数量曲率,?=A-1/ntr(A)g表示无迹共形2-张量,主要证明了一个空隙定理. 相似文献
15.
王昌金 《集美大学学报(自然科学版)》2004,9(2):189-192
证明了:对任一(0,q)式g(z)=1/q!g_Aq(z)dz^Aq,其系数gAq-(z)满足:gAq(z)/1-|z|^2在B^n-连续,则有□w∫Bng(z)∧*N(z,w)=g(w)。 相似文献
16.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果. 相似文献
17.
超球上关于不变度量的(0,q)―Green式 总被引:3,自引:2,他引:3
王昌金 《集美大学学报(自然科学版)》2002,7(1):90-94
构造Cn 中超球Bn 对于Aut(Bn)不变度量调和算子 (0 ,q)式 (n≥q 1)的Green式N(z,w) . 相似文献
18.
在容有半对称度量联络的广义复空间中建立了子流形上的 Chen 不等式,这些不等式给出了子流形的平均曲率(关于半对称联络)与截面曲率,数量曲率之间的关系。 相似文献
19.
根据给定的水流及泥沙条件,预报床面可能出现的沙波形态,是一个重要的研究课题.在对影响床面形态的参数分析后,认为床面形态应由3个无量纲参数控制,因而以往采用2个参数的经验方法有很大的局限性.基于此结论,建立了预测床面形态的人工神经网络模型,该模型充分考虑了本问题的特点.验证结果表明,该模型具有较高的精度,可用于实际问题中. 相似文献
20.
经典的分类算法对小型数据集分类是非常有效的,但当面对超大型数据集时往往失去了分类能力。在平均值和方差以及新定义的权这三个度量的基础上提出了一种快速有效处理超大型数据集分类问题的新算法一核心向量算法,简称CV算法。试验结果表明,该方法对超大型数据集分类是比较有效的。 相似文献