首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
将水印图像采用压缩传感OMP算法进行一维小波逐行观测,生成观测矩阵,以观测矩阵做为嵌入水印,将原始载体灰度图像进行DCT变换后,选取低频信息段作为水印嵌入位置,然后将水印信息进行变换图像置乱处理,并采用基于奇异值的分解算法嵌入到原始载体灰度图像中.实验结果表明,此算法能够抵抗一定的几何攻击,对JPEG压缩、噪声攻击的抵抗能力有待进一步提高.  相似文献   

2.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

3.
基于灰度形态重构的颗粒图像分割方法   总被引:1,自引:0,他引:1  
提出了一种基于距离变换、形态重构和分水岭算法的图像分割算法。将一幅图像通过距离变换得到距离灰度图,与形态重构算法结合,得到颗粒图像的标识点图,用标识点图对距离灰度图进行分割,再用分水岭变换对分割后的距离灰度图进行变换。试验表明,该算法能有效合理地解决粘连或者重叠颗粒等物体的分割。  相似文献   

4.
基于语义理解的文本相似度算法   总被引:26,自引:0,他引:26  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高.  相似文献   

5.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.  相似文献   

6.
文本水印技术可以有效地保护数字作品的版权,防止盗版、侵权等行为。针对维吾尔文数字作品版权保护问题,通过分析维吾尔文左向连写、书写落于基线等特征,根据现有文档结构水印算法,提出基于行移结构的维吾尔文文本水印算法。通过行移结构编码嵌入水印信息,依据移动行相对于维吾尔文基线位置的变化,进行水印信息的提取。从水印嵌入和提取的仿真试验结果可知,该算法水印容量小、不可感知性高,具有较强的鲁棒性。  相似文献   

7.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。  相似文献   

8.
The text watermarking is a feasible method to protect the copyright from being copied and tampered. In this paper, a text zero-watermarking algorithm is proposed based on the connection between the Chinese characters and the Chinese phonetic alphabets. According to the predefined interval threshold, the proposed algorithm extracts the characteristics of the text content by valuing on the basis of the custom of Chinese phonetic alphabets. After being chaotic transformed, the algorithm combines the text characteristics with the embedded watermarking information in the Chinese text. The experimental results show that the watermarking’s capability of preventing tampering is up to 0.1%, which demonstrates the strong robustness and resistance to aggressive behavior of the algorithm.  相似文献   

9.
基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高.  相似文献   

10.
由于词语的多语义问题和传统的文本表示与聚类过程相互独立的问题,导致文本聚类准确率较低。针对上述问题提出一种基于多语义文本表示的自适应模糊C-均值(Multi-semanticSrepresentationSbasedSadaptiveSfuzzySC-means, MSR-AFCM)聚类算法。通过将词语软聚类划分成多个词簇构建多个语义空间,将语义空间个数作为文本初始聚类数目,利用词语的语义隶属度计算每个文本属于文本空间的语义隶属度,并以此为对隶属度进行初始化。在算法运行过程中,根据更新的文本语义隶属度和文本分布状况,逐步剔除冗余的文本空间,以达到优化聚类数目的目标。实验结果表明,MSR-AFCM算法相较于传统的聚类算法有更高的准确率和兰德系数,验证了算法的有效性。  相似文献   

11.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

12.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

13.
提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。  相似文献   

14.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

15.
Text categorization plays an important role in data mining. Feature selection is the most important process of text categorization. Focused on feature selection, we present an improved text frequency method for filtering of low frequency features to deal with the data preprocessing, propose an improved mutual information algorithm for feature selection, and develop an improved tf.idf method for characteristic weights evaluation. The proposed method is applied to the benchmark test set Reuters-21578 Top10 to examine its effectiveness. Numerical results show that the precision, the recall and the value of F1 of the proposed method are all superior to those of existing conventional methods.  相似文献   

16.
Text categorization plays an important role in data mining. Feature selection is the most important process of text categorization. Focused on feature selection, we present an improved text frequency method for filtering of low frequency features to deal with the data preprocessing, propose an improved mutual information algorithm for feature selection, and develop an improved tf.idf method for characteristic weights evaluation. The proposed method is applied to the benchmark test set Reuters-21578 Top10 to examine its effectiveness. Numerical results show that the precision, the recall and the value of F1 of the proposed method are all superior to those of existing conventional methods.  相似文献   

17.
基于改进Faster R-CNN的自然场景文字检测算法   总被引:1,自引:0,他引:1  
自然场景中的文字受光照、污迹、文字较小等方面的影响,其检测难度较大,且传统的检测方法效果不好。在研究目标检测方法Faster RCNN的基础上,提出一种针对自然场景文字的改进方法。改进的模型由卷积神经网络特征提取模块,嵌套LSTM(nested long short-term memory,NLSTM)模块和区域候选网络(region proposal network,RPN)模块3部分组成,改进点主要是卷积神经网络特征提取模块增加了不同卷积层的空间特征融合,能够提取多层次的特征;增加嵌套LSTM模块能够学习长序列文本的序列特征,便于检测不定长度的文本序列;RPN模块通过设置宽为8像素,高度不定的锚点(anchor),可以提取一系列可能存在的目标建议框,其对小目标文字效果较好?。在实验部分,通过对标准数据集(ICDAR 2013,Multilingual)的实验结果对比表明,所提出的改进算法在准确率和效率方面明显优于改进前的算法。通过实列测试,改进的模型对小目标文字检测效果也有所提升。  相似文献   

18.
0 IntroductionText clusteringis the process of grouping the documentsinto the classes or clusters so that documents within acluster have high si milarityin comparisonto one another ,butare very dissi milar to documents in other clusters .In applica-tions ,the document is always represented by vector spacemodel(VSM) in which each document is represented as a vec-tor and each unique termis of one di mension of this vector .Then,documents are clustered bycalculating distance or si mi-larity[1], …  相似文献   

19.
研究了独立成分分析法(ICA)在视频序列处理中的应用,提出了一种新的基于ICA算法的视频字幕检测与定位方法,该算法采用了小波变换来提取独立分量.仿真实验结果表明,与传统方法相比,该方法能够有效消除背景信息,提高字幕定位的精度,具有更强的鲁棒性.  相似文献   

20.
文本消重是搜索引擎中的一项重要技术,能将搜集到的网页中的近似镜像网页去掉,而后再建索引提供服务,这样用户查询时就不会出现大量内容重复的网页。通过对近似镜像文本检测算法的分析和研究,提出了应用MD5指纹的近似镜像算法对文本文档进行消重处理的方法,并将该算法在基于P2PKM的学习支持平台上的索引模块中作了测试。测试结果表明,这种算法的应用,知识包中的重复文档有了明显的减少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号