首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对KNN文本分类算法在高维数据集上分类计算开销大、效率低的缺点,采用一种基于矩阵奇异值分解的文本特征向量降维方法实现向量降维的同时保留更多的分类信息.同时,采用信息增益的方式对原始文本特征词进行了初步筛选,过滤掉对分类系统几乎没有贡献的特征词,以克服文本特征维数增长所带来的奇异值分解计算开销过大的缺点.实验表明此方法能在保持分类精度的同时极大地降低分类计算开销.  相似文献   

2.
学术报告讲座的标题属于典型的超短文本,其固有的特征稀疏问题使得在利用传统的文本分类方法对其分类时效果不佳。为解决上述问题,文章基于词向量嵌入技术,对学术报告标题进行特征词扩展。通过控制特征扩展幅度和设置词间相似度阈值,使扩展的特征词与标题特征词的内容相关,并从词性角度进一步考虑词语相似性,过滤无关特征词。实验结果表明,该方法能够有效地提高对学术报告标题短文本的分类效果。  相似文献   

3.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

4.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

5.
为了提高特征词权重和文本语义相似度计算的精确性,文章提出了一种基于加权语义网的改进文本相似度计算方法。该方法首先以特征词为节点,以特征词窗口共现原理创建边,以频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)值作为特征词节点的初始权值,融合共现频率和概念语义距离自定义边权重计算方法,构建加权文本语义复杂网络。然后使用语义网络中特征词综合特征指数排名靠前的m个词组成特征向量,利用搬土距离(earth mover's distance,EMD)衡量两个文本间的语义相似度。最后基于公开数据集对文本进行聚类实验,实验结果表明,在基于F1度量值标准上文章提出的方法要优于传统的文本相似度计算方法。  相似文献   

6.
文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持。在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度。  相似文献   

7.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

8.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

9.
随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。  相似文献   

10.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

11.
提出了一种面向网络信息的层次过滤模型及其体系架构,该模型分为本体过滤层、需求过滤层和兴趣过滤层.本体过滤层中,利用本体为基础对信息内容进行语义描述,实现信息的计算机理解与过滤;在需求过滤层,模型通过理解用户所提出的需求中所包含的语义,进而更加准确地通过过滤规则进行信息流过滤;在兴趣过滤层,用户兴趣通过特定方式表达,并通过语义相似度计算实现第三过滤层.  相似文献   

12.
应用Kalman滤波方法,对于带白色和有色观测噪声单通道ARMA信号,基于Riccati方程,在线性最小方差按标量加权的最优信息融合准则下,提出了多传感器分布式信息融合Wiener信号滤波器。提出了计算局部滤波误差间的互协方差的Lyapunov方程,可用于计算最优加权系数。同单传感器情形相比,可提高滤波精度。一个三传感器信息融合Wiener跟踪滤波器的仿真例子说明了其有效性。  相似文献   

13.
目前网络信息审计系统大多基于文本信息的过滤,但不良信息的提供者将不良信息嵌入到图像或直接以图像文件,绕过监控。文中介绍了基于图像内容过滤的信息审计系统中的图像检索技术,首先论述了图像检索中应用最为广泛的颜色特征的提取,接着论述了所有物体表面共有的内在特性纹理特征的提取,然后论述了形状特征的提取,最后论述了图像的空间关系特征的提取。  相似文献   

14.
信息过滤技术是当前研究的热点。本文先分析了向量空间模型和布尔逻辑模型及其它们的优缺点,在此基础上提出了基于语义和学习机制的信息过滤模型,该模型是对字项文档矩阵使用奇异值分解[1](Singular-Value Decomposition,SVD)的方法来实现信息过滤的,并详细分析了此模型的优缺点。  相似文献   

15.
多传感器分布式协方差信息融合Kalman滤波理论   总被引:3,自引:3,他引:3  
对于带多传感器和带相关噪声的线性离散时变随机控制系统,基于按矩阵加权、按对角阵加权和按标量加权的三种最优信息融合规则,提出了相应的三种分布式最优信息融合Kalman估值器,可统一处理融合滤波、预报和平滑问题。为了计算最优加权,提出了计算局部估计误差协方差公式。作为特殊情形,还提出了定常系统的稳态最优信息融合Kalman估值器,其中用解Lyapunov方程计算局部估计误差协方差。同集中融合Kalman估值器相比,可减小计算负担。同单传感器Kalman估值器相比,可提高精度。它们构成了统一和通用的分布式协方差信息融合Kalman滤波理论。  相似文献   

16.
对于带不同局部动态模型和多传感器的的线性离散时变随机控制系统,应用Kalman滤波方法,基于Riccati方程,根据按矩阵加权、按对角阵加权和按标量加权三种最优融合规则.提出了系统公共状态的三种最优加权融合Kalman估值器,可统一处理融合滤波、预报和平滑问题。为计算最优加权,提出计算局部估计误差互协方差公式。它们可用于信号融合滤波。用增广状态方法.将待估信号看成子系统公共状态,提出了信号多传感器信息融合滤波的一种设计方法。  相似文献   

17.
垃圾邮件过滤中特征选择方法研究   总被引:2,自引:0,他引:2  
文章对垃圾邮件过滤中的特征选择问题进行了研究,引入"词共现模型"考虑词语之间的语义联系信息,和传统的信息增益特征选择方法结合表示邮件,采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.实验表明,文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度.  相似文献   

18.
应用Kalman滤波方法,基于Riccati方程,对输入噪声和观测噪声相关,且传感器观测噪声相关的两传感器系统,在线性最小方差最优信息融合准则下,提出了按矩阵加权最优信息融合Kalman滤波器和平滑器。为了计算最优加权阵,提出了局部估计误差互协方差阵的计算公式。同单传感器情况相比,可提高融合估计精度。一个目标跟踪系统的仿真例子说明了其有效性。  相似文献   

19.
基于领域本体的信息搜索模型   总被引:3,自引:0,他引:3       下载免费PDF全文
针对目前的搜索模型局限于语法层次上关键词匹配的特点,以领域本体作为知识组织方式,提出了一种语义环境下基于本体的信息搜索模型.在此模型的基础上,分别提出了文档语义标注算法和搜索词语义扩展算法,两种算法分别对文档集语义分析和搜索词语义关系理解,实现双向语义信息搜索的目的.实验结果表明,提出的信息搜索方法能够克服关键词匹配搜索的不足,获得较好的搜索效果  相似文献   

20.
对于带不同局部动态模型的多传感器线性离散时变随机控制系统,应用Kalman滤波方法,在按标量加权最优融合准则下,提出了统一和通用的最优信息融合白噪声反卷积估值器,并对定常系统提出了稳态最优信息融合白噪声反卷积估值器。它们可统一处理白噪声反卷积融合滤波、平滑和预报问题。为了计算最优加权,提出了输人白噪声局部估计误差互协方差计算公式。它们在石油、地震勘探领域中有重要的应用背景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号