首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
针对短文本特征选择方法,分析研究逆文档频率(IDF)和卡方统计量两种方法的特点,并将IDF和卡方统计量方法相结合,对卡方统计量方法进行改进,改善传统卡方统计量忽略低频特征词和容易选取高频无效特征词的缺点;然后将改进的卡方统计量与BP神经网络相结合,并与KNN、NB两种分类器进行测试比较。结果显示:改进的卡方统计量改善特征词选择的效果,提高分类效果,而且BP神经网络对于短文本分类有更好的可靠性,尤其是在特征维数较低的情况下依然表现出较高的分类效果。  相似文献   

2.
话题跟踪的目的是将新的新闻数据分配到已知话题中,对把握新闻发展趋势和进行舆情分析具有重要作用。本文深入分析了几种基于向量空间模型的特征项权重算法,发现传统算法没有充分体现特征项中类别信息的作用,在此基础上引入了类别区分度因子对卡方统计量进行改进,给出了加入类别信息的卡方统计量算法,该算法能够更准确地提取出对新闻区分度较大的特征项。同时,在特征项权重的框架内对常用的softmax线性模型进行了基于余弦假设的改进。基于标准数据集TDT4的实验表明,本文给出的权重算法和分类算法均能够提高话题跟踪的查全率和查准率。  相似文献   

3.
为了提高协同过滤推荐算法的推荐准确度,降低对未评分项目的评分预测误差,提出了一种针对修正余弦相似度改进的协同过滤推荐算法。一方面,为了解决修正余弦相似度中未考虑项目热度的问题,在传统的修正余弦相似度基础上引入热门项目惩罚因子;另一方面,为了克服改进的修正余弦相似度公式高度依赖共同评分数量的限制,引入JS散度并改进,将改进JS散度得到的概率分布修正因子作为权重融合到改进的修正余弦相似度中,得到新的相似度计算方法。使用MovieLens数据集进行实验,结果表明,在协同过滤推荐算法的相似度计算部分使用本文改进方法同其他相似度计算方法比较,本文方法使推荐算法对未评分项目的评分预测更准确,推荐算法的推荐准确度更高。  相似文献   

4.
含有多个误差项的卡方函数严格意义上应该表示成矩阵的形式,然而矩阵方法表示的卡方函数自由项较多,在使用计算机寻找卡方函数极值的过程变得相对困难。因此在实际构造的过程中,经常使用平方项的形式进行卡方函数的构造。基于原始的数据分析原理,可以证明这二者在数学上是等价的。  相似文献   

5.
本文对广义向量空间模型进行了改进,并利用《知网》义原提出了一种基于义原空间的文本相似度计算方法。此方法根据TF-IDF权重,将文中特征项转化为义原空间中的向量,通过求义原向量之间的夹角余弦值的方式,实现文本相似度的计算。最后进行文本聚类对比实验,结果表明,该方法可以很好地解决舆情分析中的语义漂移问题,使得网络舆情分析的效果有了较大提高。  相似文献   

6.
唐卡是独具特色的藏族艺术资源,因其内容复杂、种类多样、分辨率高,传统的图像检索方法无法实现对唐卡图像进行快速而精准的检索.针对上述问题,基于残差神经网络(ResNet)进行唐卡图像的检索,首先使用ResNet50网络结构进行唐卡图像的深层语义信息提取,然后采用余弦相似度比对算法对提取的唐卡特征进行准确分析.实验表明,相较于SIFT方法,ResNet50检索方法的查准率提升了40%,召回率提升了25%;相较于VGG16,ResNet50检索方法的查准率提升了3%,召回率提升了5%.  相似文献   

7.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

8.
一种改进的Lucene语义相似度检索算法   总被引:2,自引:0,他引:2  
 Lucene的基础上,结合检索词项的语义信息,利用外部词典Wordnet分析检索词项与被检索文档中词项的语义相似度,在此基础上实现对文档语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。  相似文献   

9.
一种向量空间模型中对特征项的改进方法及应用   总被引:1,自引:0,他引:1  
针对传统VSM方法中选取特征项的不足之处,在文本相似度计算研究领域中中,提出了一种新的特征项选取方法--用语言片段作为特征项.介绍了选取语言片段作特征项方法的实现过程,分析了该方法的必要性与可行性,通过计算在受限语境下文本的相似度的实验,测得系统判分正确率为85.24%.与同类系统进行对比实验,发现该方法在受限语境下表现稍好.  相似文献   

10.
协同过滤被广泛的应用在推荐系统中,传统计算相似度使用皮尔森相关系数,余弦相似度、Jaccard相似度等方法,但在处理稀疏数据时,其准确度不理想。针对这一问题,提出一种基于路径搜索的相似度计算方法,能够反映用户或项目之间间接关系。实验结果表明,相比传统的相似度计算方法,该方法在准确度上有较好的提升。  相似文献   

11.
CSIBTEST方法是基于参照组和目标组2个测验信度对真分数进行估计,再按交叉位置分数将匹配分数划分为2类子样本,并分别计算其卡方统计量,然后将这2个独立的卡方统计量相加得到自由度为2的检验统计量.鉴于测验信度具有群体依赖性,即不同群体的测验信度可能不尽相同,而CSIBTEST方法将参照组和目标组分别划分为2类子样本,有必要对子样本上的测验信度也进行估计,由此拓展了CSIBTEST.新方法先使用CSIBTEST获得交叉位置参数,相当于进行DIF预分析,再使用子样本上的信度估计用于真分数估计,以在对匹配变量进行纯化后获得检测统计量.模拟研究结果显示:相比SIBTEST和CSIBTEST,匹配变量纯化的测验偏差检验方法对存在DIF试题有着更高的统计检验力.  相似文献   

12.
对人体运动捕捉数据进行行为分割是人体运动数据分析与合成中的关键处理步骤,为此,提出一种新的人体运动数据行为分割算法。采用骨骼夹角直方图刻画人体运动统计特征,使用余弦相似度作为人体运动数据骨骼夹角直方图特征的相似性度量,实现对运动行为的自动分割。对于给定的人体运动捕捉序列,首先定义滑动比较窗口,计算当前窗口范围内运动序列前、后2部分骨骼夹角直方图统计特征的余弦相似度,然后通过在运动序列上滑动该窗口,获得运动序列的余弦相似度曲线,曲线最小值位置即为不同类型行为的分割点。在CMU人体运动捕捉数据库上进行数值实验。研究结果表明:本文算法能够实现对人体运动捕捉数据的自动行为分割;与广泛采用的基于PPCA的行为分割方法相比,本文算法具有良好的性能。  相似文献   

13.
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.  相似文献   

14.
研究了单指标模型的异方差诊断问题,首先采用经验似然的方法对模型误差项进行异方差检验,构造了纠偏经验似然比检验;然后得到了经验似然比统计量,并证得其为渐进卡方分布;最后的数值模拟结果表明:该检验方法具有理想的检验功效。  相似文献   

15.
为了克服当前图像匹配方法主要通过测量距离的方法来实现图像匹配,忽略了图像间的相似度,导致算法存在错误匹配较多以及鲁棒性较差的问题。本文提出了基于相似度模型耦合角度制约规则的图像匹配算法。采用FAST检测方法对图像特征进行检测,快速获取鲁棒特征点,以改善算法的匹配正确率。随后,利用SURF特征描述机制,通过计算特征圆域内的Haar小波响应值,对特征点进行描述。引入结构相似度SSIM(structural similarity index measurement)模型,将其与欧氏距离模型相结合,构造相似度模型,从结构相似度与测量距离两方面出发,将特征点进行粗匹配。最后,利用特征点的余弦关系,求取特征点间角度,建立角度制约规则,对粗匹配结果完成优化。实验结果显示:与典型的匹配方法相比,该算法具有更好的匹配性能较好,在多种几何变换下仍具有理想的匹配精度。  相似文献   

16.
在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。  相似文献   

17.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

18.
为提高电力系统管理的效率,提出一种基于加权余弦相似度与极限学习机(extreme tearning machine, ELM)的电力负荷短期预测设计。通过熵权法对电力负荷相关物理信息进行权重分配,获得的权重赋予到余弦相似度中,利用加权余弦相似度对历史日与待测日的电负荷数据进行相似度选取,筛选数据作为极限学习机的输入,提高极限学习机回归模型的精度,最终获取电力负荷预测。实验分析与反向传播BP(back propagation)神经网络、支持向量机(spupport vector machine, SVM)预测算法对比,该方法能有效提高预测模型的精度,同时简化计算量。  相似文献   

19.
针对大规模在线开放课程环境下C/C++语言学习者人数众多、自动评阅准确率低的问题,提出一种基于多特征综合分析的编程题自动评分方法。通过对源程序编译预处理剔除提示性信息,用词法分析和抽象语法树(AST)分别抽取学生程序和标准模板程序的多种特征并计算特征相似度,再根据程序编译是否通过,采用不同策略综合分析多种特征相似度进行自动评分。特征相似度包括多项测试用例运行结果的相似度、AST抽取的各项特征的相似度和源程序代码相似度。如果学生程序编译失败,在计算AST特征相似度的同时需进行源程序代码相似度分析。实验结果表明:相对于仅基于测试用例运行结果的动态测试方法和传统静态分析方法,所提方法的平均准确率分别提高了18.48%和14.17%,评价结果与人工评分高度相关且无需借助人工辅助分析。该方法适用于大规模在线开放课程教学。  相似文献   

20.
【目的】研究评价问题中评价对象因个体差异性的聚类问题。【方法】首先引入夹角余弦刻画评价对象个体间倾向性上的差异大小,其次利用余弦相似度与欧式距离刻画评价对象的总体相似度,对Tzortzis和Likas提出的min-max K-means聚类算法进行改进。【结果】利用某高校参与评价教师的指标数据集进行初步的数值实验,证明了改进K-means算法的有效性。【结论】余弦相似度刻画考核对象的偏向性差异,很好的克服了欧式距离只考虑数值绝对值上的差异,具有重要的现实意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号