首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,进而实现对特征词重要性排序.分别在公共语料集和补充语料集上与其它多种特征词排序方法进行数值实验对比,实验结果验证了方法的有效性.该方法拓宽了流形排序思想和图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略.  相似文献   

2.
群体研讨支持系统(Group Argument Support Systems, GASS)的匿名、并行输入及自动化记录群体发言的特征,在辅助群体产生大量有价值观点的同时,也常常导致"信息过载"和"知识断层".介绍了一个自动化聚类工具来增强群体的认知能力并提高电子会议的效率.首先识别了GASS环境下自动化主题聚类的一些挑战并回顾了相关研究,结合GASS的研讨模式、研讨文本特征及中文文本分析的要求,给出了中文分词、停词表处理以及有效词语识别的文本分析技术.提出基于主题分析的特征向量选择方法,并基于自组织映射的神经网络思想,用Java语言设计并开发了一个自动聚类工具.实验表明,该工具可以达到0.28的聚类准确率,0.35的聚类全面率,产生0.83的聚类错误率.  相似文献   

3.
为了提高无线多跳网络中支持可靠广播/组播MAC协议的效率和灵活性,分析了可靠广播/组播的不同实现方式,以广播/组播代价为指标建立了有确认广播、有确认单播、混合方式三种实现方式的数学模型,并在此基础上提出了一种自适应可靠广播/组播MAC协议.该协议能够根据网络环境、业务特性等参数自动地选择效率最高的广播/组播实现方式.仿真结果说明该协议在效率与可靠性两方面均能达到良好的性能.  相似文献   

4.
基于在线评论词向量表征的产品属性提取   总被引:1,自引:0,他引:1  
在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类相结合的半监督方法,用于从海量在线文本中高效挖掘出用户评论的特征,并进一步按照这些特征的语义提取出它们的归类信息.在真实数据集上的实验结果表明,提出的方法可有效应用于海量在线评论中的文本属性提取工作;与经典模型相比,本方法从特征中提取的归类属性信息能更好地呈现出评论者表达的语义.  相似文献   

5.
自动提取图像中的线特征,特别是长而直的线特征,对于实现场景的自动解译有重要意义。对合成孔径雷达(syhthetic aperture radar, SAR)图像中的线特征及其自动提取问题的特殊性进行分析,结合对已有方法共性的简单总结,从实际应用需要的角度归纳了SAR图像线特征自动提取方法应满足的基本要求和应遵循的合理思路。提出了一种由粗到细的自动提取方法,定义一组局部方向参数描述图像的局部纹理方向特征,通过多尺度分析实现快速粗提取,在后处理中进行细化并获得知识表达。在日本PI SAR实际数据图像上进行的实验表明了提出方法的有效性。  相似文献   

6.
针对船舶电机定子电流中的强噪声干扰,以及远程故障诊断系统的采样数据序列短、相位不同步等特点,提出采用多窗谱分析实现电机早期故障的检测方法.通过仿真研究,与三种常用频谱分析方法的应用结果进行比较,验证了该方法实现特征频率提取的稳定性及较好的抗噪性能.最后建立了试验系统,在电机中分别设置了匝间短路和轴承故障,通过对故障测试数据的应用分析,验证了该方法实现电机早期故障检测的有效性.  相似文献   

7.
为了预测HLA仿真联邦的时间管理性能,衡量其并行性,首先提出了着色交互Petri网,建立了HLA仿真联邦的时间管理性能预测模型;然后,应用Stateflow实现了该模型,应用模型的运行结果定量地衡量仿真联邦的并行性;最后,通过在水声对抗仿真系统中的应用,验证了模型的有效性.应用该预测模型,仿真联邦能够通过采用提高并行性的参数与策略,实现时间管理性能的提高.  相似文献   

8.
广播式与合约式自动相关监视的信息转换   总被引:2,自引:0,他引:2  
广播式自动相关监视(ADS-B)与合约式自动相关监视(ADS-C)是两种不同的自动相关监视体制。通过对ADS-B与ADS-C之间监视信息的差异分析,提出一个能够使两种信息在末端应用时相互兼容的转换处理方法。运用该方法,可以实现两种自动相关监视系统之间的信息共享,有效提高空中交通监视系统的整体效能。  相似文献   

9.
针对倾斜转弯导弹,提出了最优/经典综合设计方法设计自动驾驶仪.该方法应用最优控制设计出俯仰/偏航混合通道三回路自动驾驶仪,设计中同时对开环系统的奇异值频域曲线进行约束,以保证系统具有一定的鲁棒性,获得的三回路自动驾驶仪结构简单,易于工程实现.仿真结果证实了其具有良好的跟踪性能和鲁棒性,也表明该自动驾驶仪能满足倾斜转弯导弹协调倾斜转弯的要求.  相似文献   

10.
采用并行协同进化遗传算法的文本特征选择   总被引:1,自引:1,他引:0  
现有的文本特征选择方法都是串行化的, 应用于海量文本数据集时时间效率较低, 因此利用并行思想来提高文本特征选择的效率, 已成为文本挖掘领域的一个研究热点. 本文将 遗传算法和并行协同进化算法结合起来, 在粗糙集的基础上设计了一个并行协同进化遗传算法 并将该算法用于文本特征选择. 该方法采用遗传算法搜索特征, 利用并行协同进化算法来提高 时间效率, 从而较快地获得较具代表性的特征子集. 实验结果表明该方法是有效的.  相似文献   

11.
1.INTRODUCTION Therearemanycommonproblemsintextprocessing, suchasremovingduplicationofstrings,recognizing andremovingtheprefixandsuffixofstrings[1]and distinguishingoftheembeddedstrings[2].These problemscanberesolvedbymeansofstringcrosspat ternmatching.Thatistofindallmatchesbetween twostringsofU,whichisastringsetdefinedonal phabetΣ. Therearemanyclassicalalgorithmsforpattern matchingandcanbeclassifiedintotwocategories: single patternmatchingandmulti patternmatching. Thecurrentprevail…  相似文献   

12.
一种基于概率模型的分词系统   总被引:9,自引:1,他引:8  
李家福  张亚非 《系统仿真学报》2002,14(5):544-546,550
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation-Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。  相似文献   

13.
A novel algorithm for word sense disambiguation(WSD) that is based on SVM model improved with automatic feature selection is introduced. This learning method employs rich contextual features to predict the proper senses for specific words. Experimental results show that this algorithm can achieve an execellent performance on the set of data released during the SENSEEVAL-2 competition. We present the results obtained and discuss the transplantation of this algorithm to other languages such as Chinese. Experimental results on Chinese corpus show that our algorithm achieves an accuracy of 70.0 % even with small training data.  相似文献   

14.
有向最短哈密尔顿路问题的DNA算法   总被引:11,自引:2,他引:9  
首次提出了基于分子生物技术的有向最短哈密尔顿路问题的DNA (deoxyribonucleicacid)算法 ,将顶点、权值用DNA片段编码 ,边的方向通过顶点的编码获得。将这些DNA片段放入溶液中进行生化反应 ,通过基本的生物操作及生物酶完成解的产生及最终解的分离。该算法的创新之处在于权值的设计 ,合理有效地用DNA序列表示权值的大小 ,以便于使用常规的生物分离方法进行最优路径的选择。依据分子生物学的实验方法 ,说明了所提算法是有效和可行的。  相似文献   

15.
分析了科技领域术语的特点, 综合考虑语言学与统计学特征, 提出了一种科技领域术语自动抽取模型, 包括预处理、串扩展和术语筛选3个部分. 通过实验研究了阈值选取同评价指标之间的关系, 验证了本文模型的有效性. 对比实验结果表明, 在保证较高准确率和召回率的基础上, 抽取速度较通用方法提高2倍以上.  相似文献   

16.
汉语自动分词的研究现状与困难   总被引:31,自引:0,他引:31  
张春霞  郝天永 《系统仿真学报》2005,17(1):138-143,147
汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的现状分析,构建了自动分词的形式化模型,论述了影响分词的诸多因素,分析了分词中存在的两个最大困难及其解决方法。最后指出了目前分词研究中尤其是在分词评测方面存在的问题以及未来的研究工作。  相似文献   

17.
针对目前基于三元组知识构建的知识图谱结构逻辑性弱、难以形成知识体系的问题, 以公文应用背景为牵引, 提出多模态知识结构要素抽取模型, 构建多模态公文文档数据集GovDoc-CN, 在文本和图像两个模态对文档中包括各级标题、摘要、作者、成文时间、文档编号等在内的知识结构要素进行抽取。设计文档结构树模型对抽取的文档知识结构要素进行组织, 并构建结构化图网络实现文档的组织和管理。实验证明, 相较于单一模态的抽取模型, 多模态知识结构要素抽取模型取得了明显的效果提升, 文档结构树模型和基于文档结构树模型构建的结构化图网络为文档知识的组织与管理提供了一种新途径, 具有重要的应用价值。  相似文献   

18.
Given an alphabet E and a finite minimal set B of forbidden words, a combinatorial enumeration problem on bacterial complete genomes is transformed to enumerating strings of a given length which do not, contain any string in B as their substrings. Prom the fact that a string in the language is equivalent to a path in the corresponding graph, we have obtained a polynomial time algorithm by modifying the power of the adjacency matrix in the graph.  相似文献   

19.
ERP与公司盈利绩效:来自沪深上市公司的经验证据   总被引:1,自引:1,他引:0  
通过收集沪深两市66家上市公司2-12年期大约340个样本观察值数据, 使用广义最小二乘法在我国背景下实证研究了 ERP与公司盈利绩效的关系. 得出了以下两个结论: 采用ERP后, 短期而言(ERP采用后第 1-5年), 我国上市公司的盈利绩效(以ROA、ROE衡量)在统计上 显著降低了; 采用ERP后, 短期而言, 我国上市公司的盈利绩效(以ROA、ROE衡量)在统计上显著降低了, 而在一个较长时期内, 随着时间的推移, 这种负面影响逐年减少, 具有边际收益递增效应, 表现出U型关系; 长期而言, ERP采用对盈利绩效具有统计上显著的正面影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号