首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

2.
给出了一种针对大量新闻数据的话题检测方法.首先通过LDA(latent dirichlet allocation)模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理地体现新闻主题特征.然后改进OPTICS(ordering point to identify the cluster structure)密度聚类算法,基于新闻话题的时间延续性给出了T-OPTICS算法.该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响.改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性.基于TDT4数据集的实验表明,该方法能够快速有效地发现新闻中的话题.  相似文献   

3.
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.  相似文献   

4.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

5.
针对目标跟踪中的遮挡问题,提出一种基于局部显著特征区域和概率图模型的跟踪算法.提取目标的一组局部显著特征点,以局部显著特征点为依据,在目标区域中划分出多个感兴趣的显著特征区域;利用这组显著特征区域相互之间的空间位置关系,并结合各个显著特征区域自身的局部信息建立目标的马尔可夫随机场(MRF)模型;采用mean shift(MS)算法对各个显著特征区域分别进行跟踪,利用MRF模型对MS算法的跟踪结果进行概率推断,融合各个显著特征区域的权重,精确定位运动目标的最终位置.在多个视频序列上的实验结果表明,与改进的MS算法、粒子滤波算法以及分块跟踪方法相比,此算法具有较高的跟踪精度;尤其是当目标被遮挡时,该算法具有较好的跟踪鲁棒性.该算法充分利用了显著特征区域自身的局部特征和区域之间的空间结构信息,能够实现复杂情况下的运动目标的鲁棒跟踪.  相似文献   

6.
针对推荐算法的信息过期问题,结合遗忘函数和信息保持期的改进时间权重引入矩阵分解模型,提出一种基于改进时间权重的矩阵分解协同过滤算法(MFTWCF,MF-based and improved time weighted collabora tive filtering),相比前人提出的基于改进时间权重的邻域协同过滤算法(NTWCF,neighborhood-based and improved time weighted collaboratire filering algorithm),准确性显著提升了26.58%。由于过去的信息所包含的特征在随后的时间里可能被用户持续关注,从而增强过期信息对推荐的影响力,所以提出了融合时间权重和类型影响力加强权重的改进算法(MFTTWCF,MF-bosed and imporved time and type weighteel collaborative filtering)修正上述时间权重。电影数据集的实验证明,MFTTWCF算法预测的准确性比MFTWCF算法提高了3.58%,能够取得更好的推荐效果,适用于通过预测评分进行推荐的系统。  相似文献   

7.
大数据时代,各行各业均产生海量信息,面临大量的信息,如何准确而高效地获取数据中的潜在规律和蕴含价值成为企业信息化的重点。为提升煤矿企业对安全监测数据的理解和监控能力,改善隐患排查治理工作水平,本文提出基于类别关键词权重的短文本分类模型,有效缓解了文本分类中特征稀疏的问题。该方法首先基于朴素贝叶斯算法,对不符合规范的非法数据进行筛选,然后构建基于关键词权重的短文本分类模型,利用中文分词技术、卡方检验方法构建关键词库,最后建立得分模型实现对隐患数据的分类。结果表明,该模型能较为准确地对矿业安全隐患数据进行有效的评级分类,进一步地改善隐患排查和治理的针对性和有效性。  相似文献   

8.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

9.
针对单特征目标跟踪算法的鲁棒性较差以及不能充分利用最新的量测信息等问题,提出了一种基于多特征融合的改进UPF(Unscented Particle Filter)跟踪算法.基于比例最小偏度单形采样策略的UKF(Unscented Kalman Filter)算法和IKF(Iterated Kalman Filter)算法对粒子滤波算法进行改进,并在改进的算法框架下,采用不确定性度量方法融合目标的颜色和纹理特征,对目标进行跟踪.仿真实验表明,改进算法提高了跟踪精度,对复杂背景下的目标进行跟踪有较好的效果,并能有效跟踪被遮挡的目标.  相似文献   

10.
研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度.  相似文献   

11.
针对目标周围的背景信息对目标跟踪算法的影响,基于判别式序列表提出了一种改进的均值漂移目标跟踪算法.利用目标外观特征来描述目标模型与候选目标,同时通过判别式序列表对目标外观建模并对目标周围的背景信息进行描述.基于均值漂移跟踪框架,把目标外观模型与判别式序列表目标外观模型相结合来改进传统的均值漂移跟踪算法.在几个图像序列上...  相似文献   

12.
分析了传统的互信息特征选择算法的不足,针对可能赋予低频特征词过高权重的问题,利用词频、集中度这两个强信息特征指标对算法进行改进,提出了一种基于词频和文本类别的互信息改进算法(Improved Mutual Infonnation Algodthm based on Word Frequency and Text Category,简称改进的MIFC)。实验结果表明,改进的MIFC算法提取的特征空间比传统的互信息算法有更高的精确度。  相似文献   

13.
针对密集杂波下现有的多机动目标跟踪算法性能衰减严重的问题,提出了一种标签多伯努利目标跟踪与分类算法。首先,引入类别信息对目标状态进行扩维;然后利用类别属性对目标机动模型转移密度进行修正,并推导新的状态转移密度函数,抑制了错误机动模型对目标状态预测的影响;同时,建立目标位置与属性的联合量测似然函数,增大了目标与杂波的区分度,从而增强杂波抑制能力;最后,基于多模型标签多伯努利滤波器框架推导了新的预测、更新方程。仿真实验结果表明:所提算法在高杂波环境下仍能对多机动目标进行有效跟踪,其目标数估计误差及最优子模式分配距离分别约为多模型概率假设密度联合检测、跟踪、分类滤波器的1/2和1/4,为多模型势平衡多伯努利联合检测、跟踪、分类滤波器的3/4和1/2。  相似文献   

14.
蒲玲玲  杨柳 《科学技术与工程》2023,23(28):12159-12167
多车辆目标跟踪时间主要花费在车辆检测模块和对每个车辆表观特征提取模块,一般情况下,车辆检测和车辆表观特征提取是在不同的神经网络中进行的,且一张图中的车辆目标越多,对车辆表观特征提取耗费时间的也越多,推理时间也相应变长。针对这一问题,基于经典的Tracking-By-Detection模式,提出一种改进的YOLO模型:在YOLO网络中添加ReID特征识别模块,使YOLO在输出目标位置信息的同时输出目标特征信息,以提高算法的跟踪速度。针对车辆间彼此覆盖的情况,提出一种基于动态IOU阈值的非极大抑制算法,以提高算法的跟踪精度。最后将YOLO输出的信息进行数据匹配,从而实现多目标跟踪。在UA-DETRAC数据集上验证改进模型的有效性,实验结果表明,将YOLOv5网络进行改进后运用在目标跟踪算法中,相对于经典的YOLO+DeepSORT跟踪模型,在车辆密集的情景下平均推理时间减少了17%;在改进后的网络上添加动态IOU阈值非极大抑制,跟踪精度提高了3.9个百分点。改进后的模型有较好的实时性与跟踪准确率。  相似文献   

15.
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。  相似文献   

16.
针对连续自适应均值漂移(CAM Shift)目标跟踪算法只适用于特定颜色目标跟踪且容易受到光照变化影响和背景色干扰的缺点,提出了一种改进的CAM Shift目标跟踪算法。该算法采用颜色空间三基色权重直方图建立目标模型,并用目标边缘特征增加目标权重。首先通过颜色空间三基色均匀量化获得特征值,建立基于核函数概率密度估计的目标模型;然后用Sobel算子检测目标边缘特征,结合颜色特征,分别赋予不同的权重投影生成概率密度分布图;最后用MeanShift算法迭代寻找目标,并通过矩运算调整跟踪窗口大小和方向。实验结果表明:该算法可以有效跟踪多色彩目标,并能够抵御一定光照变化和大面积同色干扰的影响。  相似文献   

17.
基于积分通道特征的异常行为检测算法   总被引:1,自引:1,他引:0  
对视频中的行人异常行为检测问题进行了研究。针对传统行人异常行为检测算法在准确性和兼容性方面的不足,提出一种基于积分通道特征的异常行为检测算法;该算法利用背景分割和行人信息统计的方式,对不同背景下的视频模型进行了建模。结合对行人个体的轨迹分析,对运动个体的位置进行异常行为检测。算法首先对检测区域采取区域划分,然后采用改进的积分通道特征行人检测算法对目标进行检测,最后采取Mean-shift算法对目标进行跟踪。最后的实验数据表明该算法整体性能有所提高。  相似文献   

18.
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪.  相似文献   

19.
基于偏最小二乘分析和稀疏表示的目标跟踪算法   总被引:2,自引:2,他引:0  
经典的基于子空间学习的跟踪方法通过主成分分析(principal component analysis, PCA)建立并更新目标的特征模型,只考虑目标的特征信息而忽视模型中每个样本的类别特征,从而降低了目标的跟踪精度。为此,提出一种基于偏最小二乘分析(partial least squares analysis, PLS)和稀疏表示的目标跟踪算法。通过PLS去分析关于目标与背景中纹理特征和类别信息之间的相关性,建立一个可区分的低维特征空间。将目标模板线性表示为所有目标候选的线性组合,当存在与目标模板相似的候选时,线性表示的系数满足稀疏性约束,通过L1范数最优化求解稀疏表示系数,根据最小的重构误差得到最优的目标位置。在多个视频场景下的实验结果展示了改进的跟踪算法具有较好的跟踪性能。  相似文献   

20.
为了克服多假设定位算法在特征非唯一环境中假设数量大、收敛速度慢的问题,提出了利用负信息的改进算法.改进算法首先分析"传感器未检测到环境特征"的事件为定位提供的信息,建立与传感器模型类似的负信息模型.其次,在算法流程中考虑传感器数据中未包含期望特征和未收到传感器数据的情况,在假设权重的评价中加入负信息因子,从数学形式上相当于增加一组独立传感器,为定位提供了额外的信息.仿真实验表明,该算法能够减少假设数量,加快算法收敛,并能够在特定条件下解决多假设定位算法无法唯一定位的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号