首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
用K均值算法进行文本聚类通常只能以局部最优结束,很难找到全局最优.文章提出了一种基于混沌社会演化算法的文本聚类新方法.在该方法中提出了认知主体在聚类中对范式继承的方式,在认知主体对范式的背叛中提出一种混沌变异算子.实验证明该方法不但能有效地提高文本聚类的效率而且能有效地提高文本聚类的精度.  相似文献   

2.
视频中的文本如果直接送入OCR软件,识别率较低,因为文本往往叠加在复杂背景中,所以需要先将文本从背景中分割出来。背景像素可能具有和文本像素相似的颜色,并且由于解压缩的影响,文本像素颜色分布可能具有渐变性,给分割带来一定的困难。针对这些问题,提出一种基于文本边缘和颜色特征的文本分割方法,该方法首先利用文本边缘的高频特性沿文本轮廓对图像的颜色分布进行采样;其次使用K-均值空间聚类方法从采样点集合得到图像分割的种子点和分割半径,从而分割文本图像得到不同的分割结果;最后,利用文本笔画的连通域特征挑选出正确的分割结果。实验表明,该方法较好的解决了视频文本和背景的分离问题,分割结果具有较高的OCR识别率。  相似文献   

3.
1.INTRODUCTION Fuzzyclusteringisanunsupervisedwayofdatagrouping andusefulinpatternrecognition,informationretrieval,imageprocessing,faultdetection[1,2].Itgroupsdatainto finiteclustersbyusingsomekindsofmeasuressuchasthe linearandnon lineardistance,theentropymeasure,or inclusiondegreeinfuzzyenvironments.Intermsofthe modelsandmeasuresbetweenobjects,differentalgo rithmspartitiondifferentdatasetsandproduceclusters withdifferentshapesandhavedistinctdifferenceintime andspaceefficiency.Currentclus…  相似文献   

4.
生物医学文献知识发现研究探讨及展望   总被引:8,自引:0,他引:8  
采用文本挖掘技术处理海量生物医学科技文献和文本注释型数据库。从而发现创新知识如基因、蛋白质、疾病、药物及其相互关系的研究是当前人工智能和数据挖掘领域研究的热点。本文对生物医学文献知识发现的研究内容、研究成果以及基于文本挖掘的关键技术诸方面进行了系统的分析和阐述。通过分析中医药学数据的特点,提出了基于文本挖掘的中医证候分子生物学知识发现研究,该方法的特点是综合利用中医药学文献和MEDLINE,能够获得创新的证候与基因相关知识。初步实验表明,文本挖掘技术有望为证候的分子水平研究提供辅助和支撑手段。  相似文献   

5.
Text mining, also known as discovering knowledge from the text, which has emerged as a possible solution for the current information explosion, refers to the process of extracting non-trivial and useful patterns from unstructured text. Among the general tasks of text mining such as text clustering, summarization, etc, text classification is a subtask of intelligent information processing, which employs unsupervised learning to construct a classifier from training text by which to predict the class of unlabeled text. Because of its simplicity and objectivity in performance evaluation, text classification was usually used as a standard tool to determine the advantage or weakness of a text processing method, such as text representation, text feature selection, etc. In this paper, text classification is carried out to classify the Web documents collected from XSSC Website (http://www.xssc.ac.cn). The performance of support vector machine (SVM) and back propagation neural network (BPNN) is compared on this task. Specifically, binary text classification and multi-class text classification were conducted on the XSSC documents. Moreover, the classification results of both methods are combined to improve the accuracy of classification. An experiment is conducted to show that BPNN can compete with SVM in binary text classification; but for multi-class text classification, SVM performs much better. Furthermore, the classification is improved in both binary and multi-class with the combined method.  相似文献   

6.
基于隐马尔可夫模型的文本信息抽取   总被引:30,自引:2,他引:28  
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。  相似文献   

7.
To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although having been widely used, FS process will generally cause information losing and then have much side-effect on the whole performance of TC algorithms. On the basis of the sparsity characteristic of text vectors, a new TC algorithm based on lazy feature selection (LFS) is presented. As a new type of embedded feature selection approach, the LFS method can greatly reduce the dimension of features without any information losing, which can improve both efficiency and performance of algorithms greatly. The experiments show the new algorithm can simultaneously achieve much higher both performance and efficiency than some of other classical TC algorithms.  相似文献   

8.
在以前研究的基础上给出了认识论意义的复杂性概念 :清晰表达文本意义的长度所付出的认识代价 ;研究了一般主体意义和主体间性意义下的认识复杂性度量的问题 ;给出了一般主体意义下的三种认识复杂性度量和主体间性意义下的认识复杂性的三种分析。  相似文献   

9.
球型模糊c均值算法在中文文本聚类中的应用   总被引:3,自引:1,他引:2  
一般的聚类算法只能将给定的文本归到一个类,但实际的文本往往属于多个类。提出一种基于球形的模糊c-均值算法的中文文本聚类方法。聚类方法仅考虑文本向量的方向而不考虑文本向量的大小。同时,聚类方法能充分考虑文本隶属于类的程度,并能通过用户给定的阈值将给定的文本归到多个类。实验表明,球形的模糊c-均值算法不仅具有好的聚类精度,而且能找出属于多个类的文本。  相似文献   

10.
基于主元分析和免疫聚类的双向特征数据压缩方法   总被引:4,自引:0,他引:4  
针对诊断特征数据中的重复或相似事例样本和特征参量之间可能存在的相关性,提出并实现了一种有效的特征数据双向压缩预处理方法,从而在不损失数据隐含的特征知识的前提下,有效降低学习机器的学习负担。在进行样本参量的降维处理时,采用基于主元分析的横向数据压缩方法,有效地去除了各特征参量之间的相关性。在压缩样本数量时,综述和比较了现有的各种聚类算法,基于竞争和自组织原理,对借鉴生物体的自然免疫系统中克隆选择以及免疫网络自稳定等有关机理的常规免疫聚类压缩算法,作了重要改进,提出了基于主元核相似度的亲和力定义方法,增加了抗原数据归一化、近似样本直接去除等处理步骤,使算法具有更高的执行效率和更广的适应性。并以国际上通用的过程控制仿真对象“Tennessee Bastman”工厂的实际数据进行仿真实验,验证了所提方法的有效性。  相似文献   

11.
一种基于群体语言相似矩阵的聚类方法   总被引:2,自引:0,他引:2  
针对多个专家给出语言相似矩阵的聚类分析问题,提出一种新的编网聚类分析方法。首先描述具有群体语言相似矩阵的聚类问题并介绍近年来国际上最新发展的二元语义概念及其算子;其次。基于二元语义信息处理的方法,将每个专家给出的语言相似矩阵转化为二元语义形式,再采用二元语义集结算子进行群的集结;然后依据传统的编网聚类方法的基本思路。给出基于群体语言相似矩阵的聚类分析方法的计算步骤。最后通过一个算例说明了本文给出的方法。  相似文献   

12.
大数据处理是物联网研究和应用上不可回避的难题之一,针对常用聚类方法在大数据处理上的不足,设计了一种划分聚类新方法。该方法采用了大数据集的抽样技术,对多次抽取的规模足够大的样本进行聚类以确定自然簇质心的初始位置,在此基础上采用抽样后剩余数据样本对质心的初始位置进行更新,以便校正偏离理想位置的初始质心。该划分聚类算法具有线性空间复杂度和时间复杂度。实验结果表明所提的新聚类算法不仅能得到比常用聚类算法更理想的结果,而且运行速度快,适合处理大规模数据的聚类任务。  相似文献   

13.
从复杂性思维看和谐社会及其评价尺度   总被引:4,自引:0,他引:4  
近来,和谐社会成了理论界最热门的话题,不同的人从不同的角度对如何构建和谐社会提出了自己的建议和想法。旨在从复杂性思维的角度对和谐社会的认识和评价进行研究,以使人们对和谐社会有个更深刻更全面的了解,从而有助于和谐社会的构建。  相似文献   

14.
1. Introduction As an important application field of the data clustering technologies (Jain and Murty et al. 1999), text clustering is unsupervised partitioning of a collection of textual documents into self-similar groups so that any item is more similar with another item in the same group thanwith an item outside the group. Such groups are called clusters, which are run-timely formed during the clustering process, instead of being pre-defined as in the case of text categorization, which comm…  相似文献   

15.
一种基于趋势分形维数的股指时间序列相似性分析方法   总被引:1,自引:0,他引:1  
为了提高股指时间序列相似性分析的准确性, 提出趋势分形维数的概念, 并基于此定义了相似性分析方法. 趋势分形维数包含阳线维和阴线维, 能更好地反映市场跌涨变化趋势, 基于该维数的相似性度量方法能够提高相似性度量的准确性. 通过与其他两种相似性度量方法对比, 进一步说明该方法的优越性.  相似文献   

16.
结合词性分析与串频统计的词语提取方法   总被引:4,自引:1,他引:3  
在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高.优良的自动提词结果能够保证文本自动处理的性能,进而促进相关领域的自动化程度与性能的提高.  相似文献   

17.
A type of digital chaotic encryption system was proposed in Ref. [1] which uses a class of 1-D piecewise linear (PWL) map to realize chaotic encryption and decryption system through the inverse system approach. In the general with the input terminal. In this paper we show that this cryptosystem can not frustrate chosen-cipher text attack. A type of chaotic encryption system based on self-synchronizing stream cipher is proposed. This system can avoid chosen-cipher text attack and has higher security.  相似文献   

18.
CRUDE OIL PRICE FORECASTING WITH TEI@I METHODOLOGY   总被引:13,自引:0,他引:13  
The difficulty in crude oil price forecasting, due to inherent complexity, has attracted much attention of academic researchers and business practitioners. Various methods have been tried to solve the problem of forecasting crude oil prices. However, all of the existing models of prediction can not meet practical needs. Very recently, Wang and Yu proposed a new methodology for handling complex systems-TEI@I methodology by means of a systematic integration of text mining, econometrics and intelligent techniques.Within the framework of TEI@I methodology, econometrical models are used to model the linear components of crude oil price time series (i.e., main trends) while nonlinear components of crude oil price time series (i.e., error terms) are modelled by using artificial neural network (ANN) models. In addition, the impact of irregular and infrequent future events on crude oil price is explored using web-based text mining (WTM) and rule-based expert systems (RES) techniques. Thus, a fully novel nonlinear integrated forecasting approach with error correction and judgmental adjustment is formulated to improve prediction performance within the framework of the TEI@I methodology. The proposed methodology and the novel forecasting approach are illustrated via an example.  相似文献   

19.
引入了谢尔宾斯基地毯的网络拓扑性质,并在此基础上采用内连结点法,构造具有分形和小世界特性的网络,利用数学归纳的方法得到了该网络图的集聚系数、网络图的直径、平均路径长度及平均度分布等,证明了该网络的小世界特性;由网络的自相似性及其具有的精细结构得到该网络的分形特性,由此证明了其分形和小世界特性.  相似文献   

20.
大量移动手机应用(Apps)存在重叠性功能特征,大量用户评论和多个标签,给市场机会发现、开发应用集成和应用选择带来困扰.本文提出基于文本挖掘和相似度网络融合的移动信息服务模式挖掘框架:基于功能描述文本、用户评论、分类标签分别构建个体相似度网络;将从不同信息视角得到的相似度网络进行非线性融合;用聚类验证融合网络有效性,将其用于发现不同移动信息服务模式.最后实验抓取2451个Apps,多视角特征融合方法克服数据水平差异和噪音,集成互补信息.融合结果用于聚类,在归一化互信息和准确率指标上都有显著提升,准确发现地图导航、火车汽车票、打车专车、公交查询等主流移动信息模式.研究成果为发掘市场机会和竞争者提供事实证据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号