共查询到18条相似文献,搜索用时 750 毫秒
1.
特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,进而实现对特征词重要性排序.分别在公共语料集和补充语料集上与其它多种特征词排序方法进行数值实验对比,实验结果验证了方法的有效性.该方法拓宽了流形排序思想和图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略. 相似文献
2.
针对领域本体构建过程中获取概念间语义关系的困难, 提出了一种新的本体关系学习方法——概念特征词法, 支持自动化地构建领域概念间的关系集合. 该方法首先基于语境将领域概念表示为特征词向量模型, 然后通过计算向量的相似度来确定两个概念之间是否存在语义关系. 依据领域专家定义的金标准, 对概念特征词法的学习结果做了详细的性能分析. 结果表明: 相较于已有方法, 本文方法的准确率和召回率更令人满意. 概念特征词法可广泛应用于本体构建、文本挖掘和语义检索等领域. 相似文献
3.
生物医学文献知识发现研究探讨及展望 总被引:8,自引:0,他引:8
采用文本挖掘技术处理海量生物医学科技文献和文本注释型数据库。从而发现创新知识如基因、蛋白质、疾病、药物及其相互关系的研究是当前人工智能和数据挖掘领域研究的热点。本文对生物医学文献知识发现的研究内容、研究成果以及基于文本挖掘的关键技术诸方面进行了系统的分析和阐述。通过分析中医药学数据的特点,提出了基于文本挖掘的中医证候分子生物学知识发现研究,该方法的特点是综合利用中医药学文献和MEDLINE,能够获得创新的证候与基因相关知识。初步实验表明,文本挖掘技术有望为证候的分子水平研究提供辅助和支撑手段。 相似文献
4.
视频中的文本如果直接送入OCR软件,识别率较低,因为文本往往叠加在复杂背景中,所以需要先将文本从背景中分割出来。背景像素可能具有和文本像素相似的颜色,并且由于解压缩的影响,文本像素颜色分布可能具有渐变性,给分割带来一定的困难。针对这些问题,提出一种基于文本边缘和颜色特征的文本分割方法,该方法首先利用文本边缘的高频特性沿文本轮廓对图像的颜色分布进行采样;其次使用K-均值空间聚类方法从采样点集合得到图像分割的种子点和分割半径,从而分割文本图像得到不同的分割结果;最后,利用文本笔画的连通域特征挑选出正确的分割结果。实验表明,该方法较好的解决了视频文本和背景的分离问题,分割结果具有较高的OCR识别率。 相似文献
5.
6.
特大规模组合电路测试数据产生方法研究 总被引:2,自引:0,他引:2
曾芷德 《系统工程与电子技术》1999,21(6):10
针对特大规模组合电路和全扫描设计电路提出了一种高速测试生成方法。该方法采用有限回溯测试模式产生方法生成测试码,采用n(机器字长)个测试码并行的单故障传播方法模拟验证测试覆盖。测试生成与故障模拟为n对1紧耦合集成方式。该方法运行10个Benchmark电路,取得了低测试长度、高故障覆盖、高效率的良好效果。 相似文献
7.
用K均值算法进行文本聚类通常只能以局部最优结束,很难找到全局最优.文章提出了一种基于混沌社会演化算法的文本聚类新方法.在该方法中提出了认知主体在聚类中对范式继承的方式,在认知主体对范式的背叛中提出一种混沌变异算子.实验证明该方法不但能有效地提高文本聚类的效率而且能有效地提高文本聚类的精度. 相似文献
8.
9.
10.
针对当前装备保障数据分散和决策支持不足的问题,展开装备保障数据集成研究。首先,构建了基于数据中台(open data processing service, ODPS)的装备保障数据集成架构,从数据同步、ODPS和数据服务应用程序接口(application programming interface, API)三方面对其进行了具体分析;然后,为了统一数据视图,提出了朴素贝叶斯和特征词匹配相结合的装备保障集成数据分类方法,为实现“数据互通”提供了有效方法,也为装备保障信息系统高效集成奠定了基础。 相似文献
11.
Text mining, also known as discovering knowledge from the text, which has emerged as a possible solution for the current information explosion, refers to the process of extracting non-trivial and useful patterns from unstructured text. Among the general tasks of text mining such as text clustering, summarization, etc, text classification is a subtask of intelligent information processing, which employs unsupervised learning to construct a classifier from training text by which to predict the class of unlabeled text. Because of its simplicity and objectivity in performance evaluation, text classification was usually used as a standard tool to determine the advantage or weakness of a text processing method, such as text representation, text feature selection, etc. In this paper, text classification is carried out to classify the Web documents collected from XSSC Website (http://www.xssc.ac.cn). The performance of support vector machine (SVM) and back propagation neural network (BPNN) is compared on this task. Specifically, binary text classification and multi-class text classification were conducted on the XSSC documents. Moreover, the classification results of both methods are combined to improve the accuracy of classification. An experiment is conducted to show that BPNN can compete with SVM in binary text classification; but for multi-class text classification, SVM performs much better. Furthermore, the classification is improved in both binary and multi-class with the combined method. 相似文献
12.
13.
14.
15.
军用文书自动生成是C4ISR系统中的关键技术之一 ,是提高指挥效能必不可少的重要环节。通过系统分析 ,阐明了C4ISR系统中军用文书生成系统的一个重要发展方向是基于自然语言处理的文书自动生成 ,并根据军用文书生成过程中的信息流向 ,提出了该系统三模块的结构模型 :信息理解模块、文书信息库模块、文书生成模块 ,进而描述了这三个模块的整体运作流程。该模型对其他领域中基于自然语言理解的文本生成系统也有参考价值。 相似文献
16.
17.
研究了项目评审中考虑专家文本评语和专家评分综合值的决策模型。将文本评语提炼成若干评价指标测评点,构建了含有评语信息和评分值信息的决策矩阵;建立了不完全文本评语下群体和个体指标测评点权重估测模型;提出了不完全文本评语残缺数值的估算模型;建立了考虑专家评审熟悉程度和评语接近程度的评分修正模型。最后的算例说明了方法的可行性和应用步骤。 相似文献
18.
基于向量空间模型文本过滤算法 总被引:2,自引:0,他引:2
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程.本文详细地论述了基于向量空间模型的文本过滤算法,该算法由训练和自适应过滤两个阶段组成,在训练阶段,通过主题处理和特征抽取建立初始的过滤模板,设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值,以获得最佳的过滤性能. 相似文献