首页 | 本学科首页   官方微博 | 高级检索  
     

基于多尺度视觉Transformer的图像篡改定位
作者姓名:陆璐  钟文煜  吴小坤
作者单位:华南理工大学 计算机科学与工程学院,广东 广州 510640
基金项目:国家社会科学基金;中山市产学研重大项目
摘    要:随着数字图像处理技术不断发展,图像篡改不再局限于图像拼接等单一手段,而是通过图像编辑 软件后处理隐藏恶意篡改痕迹,导致现有传统算法和基于深度学习的定位方法效果不佳。针对现有图像篡 改算法定位精度不高的问题,本文提出一种端到端基于多尺度视觉Transformer的图像篡改定位网络,该网 络融合Transformer和卷积编码器提取篡改区域与非篡改区域的特征差异。多尺度Transformer对不同尺寸图 像块序列的空间信息进行建模,从而使网络适应各种形状大小的篡改区域。实验结果表明,本文所提出的 算法在CASIA和NIST2016测试集的F1分数分别为0.431和0.877,AUC值分别为0.728和0.971,相比当前的 主流算法具有较为明显的性能提升。而且,本文所提算法在应对JPEG压缩攻击具有较强的鲁棒性。

关 键 词:深度学习  视觉Transformer  图像篡改  纵横注意力  
收稿时间:2021-09-17
本文献已被 万方数据 等数据库收录!
点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《华南理工大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号