首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 750 毫秒
1.
特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,进而实现对特征词重要性排序.分别在公共语料集和补充语料集上与其它多种特征词排序方法进行数值实验对比,实验结果验证了方法的有效性.该方法拓宽了流形排序思想和图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略.  相似文献   

2.
针对领域本体构建过程中获取概念间语义关系的困难, 提出了一种新的本体关系学习方法——概念特征词法, 支持自动化地构建领域概念间的关系集合. 该方法首先基于语境将领域概念表示为特征词向量模型, 然后通过计算向量的相似度来确定两个概念之间是否存在语义关系. 依据领域专家定义的金标准, 对概念特征词法的学习结果做了详细的性能分析. 结果表明: 相较于已有方法, 本文方法的准确率和召回率更令人满意. 概念特征词法可广泛应用于本体构建、文本挖掘和语义检索等领域.  相似文献   

3.
生物医学文献知识发现研究探讨及展望   总被引:8,自引:0,他引:8  
采用文本挖掘技术处理海量生物医学科技文献和文本注释型数据库。从而发现创新知识如基因、蛋白质、疾病、药物及其相互关系的研究是当前人工智能和数据挖掘领域研究的热点。本文对生物医学文献知识发现的研究内容、研究成果以及基于文本挖掘的关键技术诸方面进行了系统的分析和阐述。通过分析中医药学数据的特点,提出了基于文本挖掘的中医证候分子生物学知识发现研究,该方法的特点是综合利用中医药学文献和MEDLINE,能够获得创新的证候与基因相关知识。初步实验表明,文本挖掘技术有望为证候的分子水平研究提供辅助和支撑手段。  相似文献   

4.
视频中的文本如果直接送入OCR软件,识别率较低,因为文本往往叠加在复杂背景中,所以需要先将文本从背景中分割出来。背景像素可能具有和文本像素相似的颜色,并且由于解压缩的影响,文本像素颜色分布可能具有渐变性,给分割带来一定的困难。针对这些问题,提出一种基于文本边缘和颜色特征的文本分割方法,该方法首先利用文本边缘的高频特性沿文本轮廓对图像的颜色分布进行采样;其次使用K-均值空间聚类方法从采样点集合得到图像分割的种子点和分割半径,从而分割文本图像得到不同的分割结果;最后,利用文本笔画的连通域特征挑选出正确的分割结果。实验表明,该方法较好的解决了视频文本和背景的分离问题,分割结果具有较高的OCR识别率。  相似文献   

5.
一种力的动态测试和仿真   总被引:1,自引:0,他引:1  
谢晓竹  侯钦梅  傅军 《系统仿真学报》2002,14(12):1687-1688,1697
介绍一种新研制成功的阶跃力测试装置,并提出了一种新的力仿真测试法,该装置具有两种测试信号输出,其中一路产生力值和波形已知的无质量仿真力;另一路是将无质量仿真力和到有质量的测试系统。输出动态力的曲线,根据系统响应,建立测试系统的动态数学模型,设计系统的动态数字补偿滤波器,用计算机软件对测试系统的动态参数进行补偿,实验结果表明,动态力的测试误差小于1%,该方法可推广用于科学试验和工程应用中。  相似文献   

6.
特大规模组合电路测试数据产生方法研究   总被引:2,自引:0,他引:2  
针对特大规模组合电路和全扫描设计电路提出了一种高速测试生成方法。该方法采用有限回溯测试模式产生方法生成测试码,采用n(机器字长)个测试码并行的单故障传播方法模拟验证测试覆盖。测试生成与故障模拟为n对1紧耦合集成方式。该方法运行10个Benchmark电路,取得了低测试长度、高故障覆盖、高效率的良好效果。  相似文献   

7.
用K均值算法进行文本聚类通常只能以局部最优结束,很难找到全局最优.文章提出了一种基于混沌社会演化算法的文本聚类新方法.在该方法中提出了认知主体在聚类中对范式继承的方式,在认知主体对范式的背叛中提出一种混沌变异算子.实验证明该方法不但能有效地提高文本聚类的效率而且能有效地提高文本聚类的精度.  相似文献   

8.
提出了一种文本信息抽取的主动学习算法,在只有部分标记训练文本的情况下,通过主动学习的方法将最有价值的训练文本挑选出来进行标记,该算法能应用到基于包装器模型和基于隐马尔可夫模型的文本信息抽取中,在不影响抽取性能的前提下,能有效降低模型训练过程对已标记训练文本的依赖程度,很大程度减少人工标记训练文本的工作量。  相似文献   

9.
Web环境下的火工品感度虚拟仿真测试   总被引:1,自引:0,他引:1  
韦素媛  宁超  刘春桐  倪青 《系统仿真学报》2003,15(10):1446-1448,1454
应用WWW上的虚拟现实建模语言VRML,制作了可在Internet上应用Ⅲ和Netscape等普通浏览器进行交互操作的火工品感度虚拟仿真测试系统,对实现该测试系统的关键技术进行了论述。该虚拟仿真测试系统具有高度的真实效果,使操作人员如同在实地进行真正测试一样,是虚拟现实技术在万维网上的具体应用。  相似文献   

10.
针对当前装备保障数据分散和决策支持不足的问题,展开装备保障数据集成研究。首先,构建了基于数据中台(open data processing service, ODPS)的装备保障数据集成架构,从数据同步、ODPS和数据服务应用程序接口(application programming interface, API)三方面对其进行了具体分析;然后,为了统一数据视图,提出了朴素贝叶斯和特征词匹配相结合的装备保障集成数据分类方法,为实现“数据互通”提供了有效方法,也为装备保障信息系统高效集成奠定了基础。  相似文献   

11.
Text mining, also known as discovering knowledge from the text, which has emerged as a possible solution for the current information explosion, refers to the process of extracting non-trivial and useful patterns from unstructured text. Among the general tasks of text mining such as text clustering, summarization, etc, text classification is a subtask of intelligent information processing, which employs unsupervised learning to construct a classifier from training text by which to predict the class of unlabeled text. Because of its simplicity and objectivity in performance evaluation, text classification was usually used as a standard tool to determine the advantage or weakness of a text processing method, such as text representation, text feature selection, etc. In this paper, text classification is carried out to classify the Web documents collected from XSSC Website (http://www.xssc.ac.cn). The performance of support vector machine (SVM) and back propagation neural network (BPNN) is compared on this task. Specifically, binary text classification and multi-class text classification were conducted on the XSSC documents. Moreover, the classification results of both methods are combined to improve the accuracy of classification. An experiment is conducted to show that BPNN can compete with SVM in binary text classification; but for multi-class text classification, SVM performs much better. Furthermore, the classification is improved in both binary and multi-class with the combined method.  相似文献   

12.
基于分类和关键词组抽取的信息检索算法   总被引:7,自引:0,他引:7  
钟敏娟  林亚平  陈治平 《系统仿真学报》2004,16(5):1009-1012,1016
本文提出一种基于分类和关键词组抽取的信息检索算法。该算法利用文本分类和信息抽取技术辅助检索,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序。实验结果表明,所提算法与TFIDF算法、基于分类的交互式检索算法相比,具有更快的查询速度,更高的查准率和更小的排序误差率。  相似文献   

13.
基于查询扩展和分类的信息检索算法   总被引:4,自引:1,他引:4  
岳文  陈治平  林亚平 《系统仿真学报》2006,18(7):1926-1929,1934
文本信息检索是处理海量文本的重要手段之一,针对短查询串中出现的查全率高但查准率低的问题,引入一种基于查询扩展和分类的信息检索算法。该算法在检索的第一阶段利用自动相关反馈方法扩展用户递交的短查询串增加查询信息,在第二阶段使用文本分类技术辅助检索。分析和实验结果表明:新的算法比传统的查询扩展检索算法具有更好的查准率和查询效率。  相似文献   

14.
基于隐马尔可夫模型的文本信息抽取   总被引:30,自引:2,他引:28  
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。  相似文献   

15.
军用文书自动生成是C4ISR系统中的关键技术之一 ,是提高指挥效能必不可少的重要环节。通过系统分析 ,阐明了C4ISR系统中军用文书生成系统的一个重要发展方向是基于自然语言处理的文书自动生成 ,并根据军用文书生成过程中的信息流向 ,提出了该系统三模块的结构模型 :信息理解模块、文书信息库模块、文书生成模块 ,进而描述了这三个模块的整体运作流程。该模型对其他领域中基于自然语言理解的文本生成系统也有参考价值。  相似文献   

16.
一种改进的人工免疫文本聚类算法   总被引:1,自引:0,他引:1  
构造了一种能准确描述文本之间相似性(亲和力)的新方法,并在此基础上提出了一种改进的人工免疫文本聚类算法。仿真结果表明,与传统的文本聚类算法相比,新算法不仅能自动发现新类,而且具有聚类精度更高、数据压缩比更大、与输入初始配置无关、可增量处理的优势。  相似文献   

17.
研究了项目评审中考虑专家文本评语和专家评分综合值的决策模型。将文本评语提炼成若干评价指标测评点,构建了含有评语信息和评分值信息的决策矩阵;建立了不完全文本评语下群体和个体指标测评点权重估测模型;提出了不完全文本评语残缺数值的估算模型;建立了考虑专家评审熟悉程度和评语接近程度的评分修正模型。最后的算例说明了方法的可行性和应用步骤。  相似文献   

18.
基于向量空间模型文本过滤算法   总被引:2,自引:0,他引:2  
贺卫红  曹毅 《系统工程》2005,23(10):122-125
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程.本文详细地论述了基于向量空间模型的文本过滤算法,该算法由训练和自适应过滤两个阶段组成,在训练阶段,通过主题处理和特征抽取建立初始的过滤模板,设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值,以获得最佳的过滤性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号