首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于支持向量机的视频语义场景分割算法研究   总被引:1,自引:0,他引:1  
针对视频分割中存在的低层特征与高层语义之间“语义鸿沟”问题,在对视频进行镜头边界检测的基础上,引入视频语义概念矢量的定义,实现了一种基于支持向量机的视频语义场景构造方法。根据镜头关键帧画面语义的不同,提取镜头关键帧的颜色特征,并将其归一化;然后利用支持向量机对归一化后的特征量进行语义分类预测,从而生成语义矢量;将生成的语义矢量应用于已有的重叠镜头链方法,对镜头关键帧进行聚类,按语义差别构造出不同场景。实验结果证明了该方法的有效性。  相似文献   

2.
为有效识别网络视频中的恐怖场景,避免未成年人在互联网上访问不良信息,提出了一种自上而下的融合方法,有效地融合了恐怖场景识别中的音频、视觉和情感特征.首先由视频场景的不同特征构成基于情感词汇的词包模型;然后选择部分特征作为显著性特征,为其余特征赋予权重;最后,依据自上而下的特征融合策略所生成的特征向量进行恐怖场景识别.试验结果表明,该方法能有效识别恐怖视频.  相似文献   

3.
视频索引技术是未来信息高速公路上基于内容视频检索服务的基本和关键技术.介绍了视频索引的基本概念及其特殊性,并对视频索引的关键技术和研究方向按基于注释、特征和特定领域的分类进行了分析和总结.  相似文献   

4.
衣着颜色是行人最显著的表观特征,在视频监控场景中极易受到光照变化的影响.为此,笔者提出了一种基于多尺度光照估计和层次化分类的衣着颜色识别方法.首先,提出一种多尺度局部反射统计的光照估计模型,通过该模型实现对偏色图像的光照矫正;其次,为了精确地识别衣着颜色,设计基于融合多颜色空间特征的层次化分类器;最后,在校园监控场景采集4 998张行人衣着图像(晚上2 052张,白天2 946张)进行对比实验.实验结果表明,该方法能有效提高监控视频中衣着颜色识别准确率且至少提高12.5%.  相似文献   

5.
人体姿态估计是计算机视觉领域的研究热点之一,目标是从给定的图像或视频中识别人体的关节.由于篮球比赛视频中人体动作复杂多变,易产生运动模糊、遮挡等问题,导致现有的人体姿态算法对篮球动作姿态估计的准确率较低.针对这一问题,提出了一种基于多尺度时空关联特征的篮球动作姿态估计算法,构建基于Transformer的人体时序特征捕捉模块对序列层级的时空特征信息进行建模,以缓解运动模糊、遮挡等现象带来的负面影响.此外,针对人体外形复杂多变的问题,提出了基于可形变卷积的人体空间特征残差融合模块来获取更为充分的空间特征.与现有算法相比,该算法在自行构建的篮球场景人体运动数据集、姿态估计公开基准数据集PoseTrack2017和PoseTrack2018均取得较好的效果.  相似文献   

6.
视频图像中监控目标的空间定位方法   总被引:2,自引:0,他引:2       下载免费PDF全文
为解决视频监控系统中目标空间定位存在困难大、耗时等问题,根据OpenGL透视成像与摄影测量一致性原理,提出基于三维场景仿真成像,并依靠视频图像与仿真图像间的对应关系进行地理场景中目标的空间定位方法.在视频成像时摄像机内外方位元素已知的情况下,在三维虚拟场景中形成虚拟相机来模拟实际摄像机成像过程,并将监控目标所在视频图像中的像素坐标等比代入仿真图像,通过虚拟成像的逆过程反推出目标的空间坐标.为有效分析系统的定位精度,采用地面激光扫描仪+同步拍照相机组成的三维场景采集系统来模拟实际的高精度摄像机+数字云台组成的视频监控系统.实验结果表明,目标点与相机的水平距离介于10~90 m内,各目标点的空间定位在X、Y、Z三个方向的误差大多在±0.3 m之间,说明本方法是可行的.这对于通过视频监控图像实现户外目标的定位,具有重要的参考价值.  相似文献   

7.
针对视频监控过程,使用运动目标的状态特征描述场景中存在的语义内容.基于DBSCAN聚类模型学习特征集的潜在结构,生成了运动行为模式集.使用高级Petri网刻画模式间的连续、并发等时序关系,构成复杂语义事件探测模型.无监督式的模式学习过程对低层噪声有较强的鲁棒性,而定性的事件描述模型对于高层事件的推理具有更强的灵活性.在实验中,通过聚类学习得到的行为模式,给出了事件Petri网的具体建模过程,并演示了"停留"与"偷车"两个感兴趣事件的探测结果.  相似文献   

8.
针对如何在语义层次上形成视频摘要问题,提出了一种基于场景的视频摘要生成算法.首先利用类内和类间损失对场景进行分类,然后根据语义概念"重要度"从镜头类和场景提取视频摘要的构成帧,最后将选取的关键帧根据时间顺序排序,构成静态浏览型的视频摘要.实验证明该方法可以用少量的视频帧有效地表示视频的主要内容,并能有效地保持视频内容的连续性.  相似文献   

9.
设计基于内容的视频编码系统.通过对视频数据的结构和特点的分析,着重描述视频编码系统4个重要组成子模块:场景分析、形状编码、运动编码以及纹理编码子模块的实现,描述本系统中重要对象的数据结构.深入介绍系统中各模块使用的一些新方法:多帧多特征自动提取运动图像的方法,图像填充技术,离散小波变换的方法.设计并实现了功能较为齐全的基于内容的视频编码系统.  相似文献   

10.
为了克服随机方法对于小样本难以处理的缺陷.文中充分利用客观的不确定性信息,构建了物理参数和载荷同时具有未确知性的空间板梁组合结构有限元分析模型,并提出了基于未确知因子法的板梁组合结构分析方法;利用未确知因子的数学表述和未确知有理数的运算规则,推导出板梁组合结构位移响应和单元应力响应的计算表达式.得出结构位移和应力响应取某值的可信度与各参数取值可信度的趋势是一致的结论.在缺乏足够数据或者信息不完整的情况下,用未确知信息表述结构模型参数的不确定性,比用成熟的随机方法具有更高的可信度且方法简易可行.算例给出了未确知性结构的响应可能值及其可信度的计算结果.表明该方法的可行性和有效性.  相似文献   

11.
基于HHMM的多线索融合和事件推理方法   总被引:3,自引:0,他引:3  
为了解决基于内容检索技术中低层特征与高层语义之间存在语义间隔问题提出了基于多层次线索与事件的分层模型,以及相应的基于分层隐Markov模型(HHMM)的多线索融合和事件推理方法。其中线索是对事件进行推理的要素,它是低层特征与事件之间的中间层次。在将视频流分割为镜头后,从各个镜头中抽取若干与事件密切相关的线索,构造并训练各事件的HMM模型,用于融合线索和进行事件推理。由于输入视频通常包含多个事件,不可避免会遇到时域分割问题,因此构造一个HHMM模型用于同时进行视频流的合理分割和事件的识别。对足球视频的大量实验结果表明,该方法可有效地检测足球视频事件,并在抽取的线索不完全可靠的情况下具有一定的鲁棒性。  相似文献   

12.
视频镜头自动分割的若干方法   总被引:7,自引:2,他引:7  
针对突变切换和渐变切换,分别提出了滑动窗口检测算法和步长为10的帧间直方图差值判定算法,并提出了闪光检测的算法,采用不同的电影片段作为测试数据,镜头分割实验表明所提出的算法对上述两种不同的镜头切换均有较好的判定效果。  相似文献   

13.
情绪识别指在使计算机拥有能够感知和分析人类情绪和意图的能力,从而在娱乐、教育、医疗和公共安全等领域发挥作用.与直观的面部表情相比,身体姿态在情绪识别方面的作用总是被低估.针对公共空间个体人脸分辨率较低、表情识别精度不高的问题,提出了融合面部表情和身体姿态的情绪识别方法.首先,对视频数据进行预处理获得表情通道和姿态通道的输入序列;然后,使用深度学习的方法分别提取表情和姿态的情绪特征;最后,在决策层进行融合和分类.构建了基于视频的公共空间个体情绪数据集(SCU-FABE),在此基础上,结合姿态情绪识别数据增强,实现了公共空间个体情绪的有效识别.实验结果表明,表情和姿态情绪识别取得了94.698%和88.024%的平均识别率;融合情绪识别平均识别率为95.766%,有效融合了面部表情和身体姿态表达的情绪信息,在真实场景视频数据中具有良好的泛化能力和适用性.  相似文献   

14.
提出一种利用三维场景模型对视频图像进行分析并实现图像分割的方法,利用图像序列的前两帧获得图像的深度映像,实现场景的三维网络描述,采用简单的线线算法获得运动参数,并对场景模型不断修正,实验结果表明,这种方法有交地实现了视频分割,目标跟踪以及VOP(视频对象平面)的构造。  相似文献   

15.
采用单视图运动矢量与立体视频中视差矢量联合判断的方法,提出一种立体视频场景突变检测算法.该算法首先直接从多视点编码码流中提取视差矢量与运动矢量,然后分别统计每帧的视差矢量与运动矢量的幅度平均值,最后将每帧的视差矢量与运动矢量的幅度平均值与对应阈值相比较,检测立体视频场景突变的情况.用该算法在压缩域直接对立体视频场景突变进行判断,不仅可以保证检测精度,还降低了计算复杂度.仿真结果证明了算法的有效性.  相似文献   

16.
针对复杂场景的视频,在传统的梯度检测算法基础上融入多尺度技术,提出一种由粗到细的两阶段视频字符文本检测新算法.首先,利用加权平均梯度能量特征和运动能量特征对采样帧粗检测,形成候选文本区;然后,通过连通域分析,过滤部分虚检的候选文本区,再利用梯度方向的统计特征进行验证,得到精确的检测结果.仿真结果表明,本方法在处理复杂背景视频图片时具有较好的鲁棒性.  相似文献   

17.
基于关键帧提取的视频分割方法   总被引:2,自引:0,他引:2  
从分析视频数据的结构和特点出发, 提出一种新的关键帧提取方法, 在此基础上首次利用线性回归法来检测镜头边缘. 实验证明, 该算法明显提高了视频分割的准确性.  相似文献   

18.
文章介绍了基于MPEG-4 BIFS的交互场景的实现机制,与VRML交互场景进行了比较,分析了基于BIFS的场景构成,并具体构造了一个动态文本显示的场景描述。由于基于MPEG-4标准的视频、音频信息编码效率高,并提供了丰富的交互功能,使其特别适合于视频聊天、网络会议、视频监控和视频交互游戏等领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号