首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

2.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

3.
基于人工标引的中文学术期刊文献自动分类算法   总被引:3,自引:0,他引:3  
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率  相似文献   

4.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

5.
提出一种基于二阶隐马尔可夫模型(HMM)的新闻分类算法,旨在提取新闻内容中的类别字,构成特征词集合.以该特征词集合作为不同二阶HMM分类器的观察序列,二阶HMM的隐藏状态反映了文档中词语之间的相关性差异,每个状态表示出现在语料库中的词语的相关性水平.实验结果表明,相比k近邻(k NN)、朴素贝叶斯(Naive Bayes)以及支持向量机(SVM)算法,二阶HMM算法的分类表现更显优势.  相似文献   

6.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

7.
基于优化层次聚类的文档逻辑结构抽取   总被引:1,自引:0,他引:1  
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。  相似文献   

8.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

9.
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.  相似文献   

10.
随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。  相似文献   

11.
Foley-Sammon linear discriminant analysis (FSLDA) and uncorrelated linear discriminant analysis (ULDA) are two well-known kinds of linear discriminant analysis. Both ULDA and FSLDA search the kth discriminant vector in an n - k + 1 dimensional subspace, while they are subject to their respective constraints. Evidenced by strict demonstration, it is clear that in essence ULDA vectors are the covarianceorthogonal vectors of the corresponding eigen-equation. So, the algorithms for the covariance-orthogonal vectors are equivalent to the original algorithm of ULDA, which is time-consuming. Also, it is first revealed that the Fisher criterion value of each FSLDA vector must be not less than that of the corresponding ULDA vector by theory analysis. For a discriminant vector, the larger its Fisher criterion value is, the more powerful in discriminability it is. So, for FSLDA vectors, corresponding to larger Fisher criterion values is an advantage. On the other hand, in general any two feature components extracted by FSLDA vectors are statistically correlated with each other, which may make the discriminant vectors set at a disadvantageous position. In contrast to FSLDA vectors, any two feature components extracted by ULDA vectors are statistically uncorrelated with each other. Two experiments on CENPARMI handwritten numeral database and ORL database are performed. The experimental results are consistent with the theory analysis on Fisher criterion values of ULDA vectors and FSLDA vectors. The experiments also show that the equivalent algorithm of ULDA, presented in this paper, is much more efficient than the original algorithm of ULDA, as the theory analysis expects. Moreover, it appears that if there is high statistical correlation between feature components extracted by FSLDA vectors, FSLDA will not perform well, in spite of larger Fisher criterion value owned by every FSLDA vector. However, when the average correlation coefficient of feature components extracted by FSLDA vectors is at a low level, the performance of FSLDA are comparable with ULDA.  相似文献   

12.
一种高分辨率遥感影像道路提取方法   总被引:1,自引:0,他引:1  
文章采用了基于核的Fisher线性判别特征分类和形状特征相结合的方法进行道路提取.首先,对标记的样本进行色彩信息的抽取;其次,利用基于核的FLD根据抽取的信息对遥感影像进行特征训练分类,将影像分为道路和非道路两类;接着利用道路的形状特征去除误提的信息;最后利用形态学对道路网进行优化处理.实验证明,本方法可以实现具有颜色信息的遥感影像道路的提取.  相似文献   

13.
为了有效地融合Fisher线性鉴别分析与最大散度差鉴别分析所抽取的特征,得到更加全面反映原始样本的鉴别特征集,提出了基于典型相关分析的增强线性鉴别分析方法.利用Fisher线性鉴别分析和最大散度差鉴别分析方法提取两组鉴别特征,根据典型相关分析对这两组特征进行融合,获得更具鉴别力的典型鉴别特征.经过ORL标准人脸库实验,验证了所提算法的有效性.  相似文献   

14.
为充分挖掘人脸模式样本之间的鉴别信息、强化不同样本之间的区分性,以利于增强识别系统鲁棒性、提高人脸正确识别率,提出一种新颖的基于四元数的彩色人脸识别算法.将定义于实数域的PcA方法以及Fisher鉴别分析法向四元数体作合理推广,得到定义于体上的广义主成分分析方法及广义线性鉴别分析法,将这2种方法用于彩色人脸识别,从而得到全新的识别算法.该算法巧妙地将彩色像素的R、G、B3个分量结合在一起,从数学上有机融合具有丰富鉴别信息的肤色成分以及反映人脸轮廓形状信息的灰度成分,较传统仅利用灰度信息的识别方法,具有更稳定的性能以及更高的正确识别率.提出的关于共轭四元数矩阵正交特征矢量集的获取方法,数学上有详细的推导证明,该方法在理论上合理,同时在自己建立的彩色人脸库上进行的实验表明,该方法可行且实用.  相似文献   

15.
提出一种二维线性大间距判别分析(Two dimensional linear maximum margin discriminant analysis,2DLMMDA)的投影算法。该算法一方面采用了有效且稳定的大间距优化准则,引入了Laplacian矩阵,保持了特征矩阵的流形结构,且优化域为Laplacian类间散度与Laplacian类内散度之差,能克服Fisher准则带来的小样本问题;另一方面,采用了具有监督信息的判别分析,大大地提高了识别率。为了验证所提出的算法对特征提取的有效性,选择最近邻分类器进行特征分类,最后通过在CASIA(B)步态库上实验。实验结果表明,文中提出的算法具有更高的识别率和识别速度。  相似文献   

16.
核Foley-Sammon变换   总被引:1,自引:0,他引:1  
在模式识别领域,基于Fisher判别准则的Foley-Sammon变换技术有很大的影响.但是线性判别并不总是最优的.文章提出了一种基于核技巧(Kernel tricks)的非线性的特征提取技术KFST(Foley-Sammon Transformwith Kernels)——通过引入核技巧,可以在特征空间中有效计算FST.特征空间中的线性特征提取对应于输入空间的非线性特征提取.试验表明,KFST比FST具有更好的特征提取能力.  相似文献   

17.
针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相应的词干集.然后,当用户输入多个检索词时,执行初始检索,并基于局部相关反馈思想提取出排名靠前的N个文档.接着,利用TF-IDF算法计算检索词与反馈文档之间的词频相似度,通过余弦距离计算文档之间的相似度,并以此对检索词进行两次加权.最后,根据加权后的检索词进行文档检索.实验结果表明:该方法能够准确地检索出用户所需的文档,并将其靠前排序.  相似文献   

18.
基于核技巧提出的新的非线性鉴别分析方法在最小二乘意义上与基于核的Fisher鉴别分析方法等效,相应鉴别方向通过一个线性方程组得出,计算代价较小,相应分类实现极其简便。该方法的最大优点是,对训练数据进行筛选,可使构造鉴别矢量的“显著”训练样本数大大低于总训练样本数,从而使得测试集的分类非常高效;同时,设计出专门的优化算法以加速“显著”训练样本的选取。实验表明,该方法不仅具有明显的效率上的优势,且具有不低于基于核的Fisher鉴别分析方法的性能。  相似文献   

19.
Aiming at the importance of the analysis for public opinion on Internet, the authors propose a high-performance extraction method for public opinion. In this method, the space model for classification is adopted to describe the relationship between words and categories. The combined feature selection method is used to remove noisy words from the original feature space effectively. Then the category weight of words is calculated by the improved formula combining the frequency of words and distribution of words. Finally, the class weights of the not-categorized documents based on the category weight of words are obtained for realizing opinion extraction. Experiment results show that the method has comparatively high classification and good stability.  相似文献   

20.
一种新颖的分组决策方法及其应用   总被引:1,自引:1,他引:0  
该文分析了广义最佳鉴别向量集,给出了基于用于线性特征抽取的广义最佳鉴别向量的分组决策方法。将所有的样本分成若干组,从理论上说明每一组的Fisher 鉴别函数值大于整体的Fisher 鉴别函数值,因此,每一组的识别正确率远高于整体的识别正确率。为了验证所述方法的有效性,将其用于人脸识别。实验结果显示:当采用同样个数的广义最佳鉴别向量时,此方法比不分组的方法能得到更高的识别正确率;如果采用分类决策,可用较少的广义最佳鉴别向量得到良好的识别正确率,而用其它方法要达到同样的正确率,需要许多广义最佳鉴别向量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号