首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于决策树的关键短语抽取   总被引:1,自引:0,他引:1  
针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行一定的调整,采用Bagging重采样技术进一步提高了决策树的抽取性能,使其完全匹配和部分匹配的F_检测率分别达到21.50%和54.49%。  相似文献   

2.
通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果。对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。  相似文献   

3.
名词短语在自然语言处理中具有重要的地位.文章首先从语言学角度定义了名词短语,然后为名词短语识别的问题设计了一个序列标注模型,最后将隐马尔科夫支持向量机用于学习该序列标注问题.实验显示取得了满意的准确率和召回率.  相似文献   

4.
基于概率频度的普通话韵律结构预测统计模型   总被引:1,自引:0,他引:1  
为进一步提高文语转换系统中韵律结构预测的准确度,提出了一个基于概率频度的统计模型的方法,预测韵律词和韵律短语边界两级韵律结构。该方法提取与韵律词和韵律短语边界有关的语言学特征(词性、语法词、长度和位置等),并进行样本训练计算各个特征的概率频度值,最终分别建立韵律词和韵律短语的统计模型。实验结果表明:统计模型的方法对于韵律词和韵律短语边界预测的正确率分别可达90.6%和84.6%,并与决策树算法和T ransform ation-based learn ing(TBL)转换规则学习算法比较,提高10%以上的正确率。  相似文献   

5.
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%,召回率87.6%,F-评价值88.64%.  相似文献   

6.
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%, 召回率87.6%, F-评价值88.64%.  相似文献   

7.
从文本中准确地预测语调短语是提高合成语音自然度的关键之一。已有的语调短语预测方法多从词法或浅层句法信息入手,然而自然语流中语调短语的划分不仅与语法结构相关,也受其长度分布规律的约束。该文详细地比较了基于规则和基于概率、嵌入式和后接式、全局最优和局部最优等多种语调短语长度约束模型。实验结果表明:口语中语调短语的规划是一种短时的局部规划,并且对短语长度独立建模的效果优于将短语长度信息直接加入统计分类模型的特征集。  相似文献   

8.
基于信任关系的潜在好友推荐方法   总被引:2,自引:0,他引:2  
如何有效地帮助用户挖掘平台潜在好友成为电子商务中一项非常重要的服务需求。提出了一种综合考虑用户间兴趣因素和信任因素的好友推荐方法,设计并构建了一个包括用户声望信任和局部信任的混合信任网络,将网络中信任评价度与协同过滤中兴趣评分相似度进行组合来衡量用户间好友相似关联,以实现好友推荐。在Epinions数据集上以准确率、召回率和F值作为实验评价指标,对所提方法进行验证,相比其他同类应用准确率在10%-15%、召回率在10%~20%的性能,本文方法的准确率和召回率的最佳性能分别达到22.47%和21.15%,实验证明本文方法有效提高了推荐性能。  相似文献   

9.
本文依据语义关系,对聚合短语作了下位分类,划分出并列短语,承接短语,递进短语,选择短语,转折短语,起止短语六个次类,从语言事实出发,较尽地描写了这些短语的特点和一些语用问题,探讨了并列短语和选择短语中的模糊语言现象,特别是选择关系中既非相容,又非不相容,而是介乎二者之间的模糊态选择关系。本文还对“同位短语”、“连动式”的归属问题进行了研讨,认为同位短语不具有短语的资格,其后项应俄为注释性插入语处理,“连动式”则可化分为两类:一类归入组合短语里的偏正短,一类纳入聚合短语里的承接短语。  相似文献   

10.
最大熵和Brill方法结合识别英语BaseNPs   总被引:1,自引:0,他引:1  
为了进一步提高基本名词短语(BaseNPs)的识别精度,针对最大熵方法和Brill方法各自的特点,提出基于两者相结合的英语基本名词短语识别算法.该算法是在高准确率词性标注的基础上实现的.在训练和测试两个阶段中,均先采用最大熵方法识别基本名词短语,然后将已具有很高精度的识别结果作为初始标注结果运用于Brill方法中.实验结果表明,此联合算法达到了94%的准确率和召回率,充分融合了最大熵方法和Brill方法的优点,可与基于相同训练和测试语料的目前最理想的英语基本名词短语识别结果相比.  相似文献   

11.
一种基于词共现图的文档主题词自动抽取方法   总被引:11,自引:0,他引:11  
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.  相似文献   

12.
从传感器所反映的道路交通信息价值出发,给出基于信息度的宏观交通状态描述方法,提出传感器信息度函数,描述交通传感器信息的空间分布特征。探讨交通传感器信息的信息价值并给出标定模型,在此基础上提出基于交通事件的传感器组网要解决的问题和组网目标,建立基于综合信息价值最大的动态组网优化模型,给出动态组网模型的求解方法和实施步骤,最后通过实例对本方法进行验证。研究结果表明:实例中,当选择12个传感器组网时,可得到传感器单位时间最大综合价值为553.442元/h,达到组网的最优结果。本模型能够实现基于交通事件的动态组网,并能够给出满意的组网结果。  相似文献   

13.
测试集测试结果对程序错误定位算法(testing-basedfaultlocalization,TBFL)没有考虑到程序和测试用例集本身的信息,而智能随机TBFL方法,则是利用随机理论将测试员、程序员关于测试用例和程序的先验知识和测试结果信息结合起来,去定位程序的错误语句.智能TBFL算法主要从人类处理信息的通常过程着眼,把测试员交给开发人员的测试结果(主要是用例是否失败和用例覆盖语句情况)分两个层次处理,首先构造执行矩阵曰,利用程序先验分布计算测试集捕获错误的能力等级分布,它相当于人类处理信息首先考察信息的正确性和重要性这一事实;其次构造功效矩阵F,利用前述的测试集能力分布计算程序语句出错可能性的等级分布,它相当于人类处理信息时挖掘信息内涵并对信息加以综合从而做出正确判断这一事实.因此文中提出的算法称之为智能算法,它在理论上是可信的.根据文中所提出的两个有关不同TBFL算法比较标准,并在一些实例上把智能算法与其他一些传统错误定位方法进行对比,发现智能算法的功效比较满意.  相似文献   

14.
基于数据挖掘模型的配电网故障定位诊断   总被引:7,自引:0,他引:7  
由于配电网故障定位所依据的故障信息来自于户外的FTU,其运行环境较恶劣,元器件受损或信息丢失的可能性高,易形成变异故障模式,导致故障定位的错判,提出基于粗糙集(RS)理论和遗传算法(GA)相结合的数据挖掘(DM)模型来处理实时输入信息的畴变和实现配电网的故障定位。首先通过RS对变异故障信息域的数据集进行划分,再用GA挖掘出输入信息与故障定位诊断结果间冗余关系及内在关联性规则。经仿真测试证明,基于DM模型的故障定位与基于常规前馈神经网络(FNN)故障定位原理相比,前者具更高的容错性能。  相似文献   

15.
基于灰色关联决策算法的信息安全风险评估方法   总被引:1,自引:0,他引:1  
针对信息安全风险评估中参数评估值的不确定性问题,提出了一种基于灰色关联决策算法的信息安全风险评估方法.该方法首先分析了参数评估值的不确定性,将其分为灰色参数值和缺失参数值两类.其中,根据实际情况和历史统计数据,缺失参数评估值可能满足3种分布: 均匀分布、指数分布和正态分布.然后根据相应的先验估计对缺失参数评估值进行填充.填充后使用灰色关联决策算法对信息系统进行安全风险评估.最后通过算例证明了该方法的有效性.结果表明:该方法不仅可以较好地处理评估过程中参数值的不确定性问题,减少评估过程中的主观性,还可以方便地对不同信息系统的安全性进行比较,为信息安全风险评估给出了一种新的思路.  相似文献   

16.
10kV配电网网架结构模式优选的综合赋权法   总被引:1,自引:0,他引:1  
为了更科学地确定10kV配电网最优化的接线模式,提出网架模式规划的综合赋权法.在分析10kV配电网典型结构基础上,将综合赋权法应用于10kV配电网网架模式规划,依据主、客观赋权法得出的权系数,得出综合指标权系数,再进行最优化计算,形成该方法的实施步骤.用此方法对配电网网架结构模式进行优选,能更全面、更;住确地比较不同网架模式的优劣,同时大幅降低了计算量,避免了多目标函数处理上的困难.通过实例分析,证实了用该方法选择10kV配电网网架模式的合理性和实用性.  相似文献   

17.
流大小分布是网络测量中一个重要的度量。已有的研究表明在MLE(极大似然估计)算法中运用TCP流的协议信息能够更好的估计流大小分布。本文详细比较了运用TCP流的SYN包和TCP序列号信息的几种MLE算法,并在此基础上结合实际应用提出了一种对小流采取细粒度、对大流采取粗粒度的非均匀粒度的流大小估计算法。实验结果表明,该算法在减少了MLE估计计算量的同时,提高了粗粒度后大流估计精度。  相似文献   

18.
以同时具有丢失型和遗漏型未知属性值的不完备系统为研究对象,根据特征关系讨论了其中的知识约简问题.在不完备决策系统中,引入了近似分布约简的概念并给出了相应的判定定理与辨识矩阵,为从复杂的不完备系统中获取知识提供了新的理论基础与技术手段.  相似文献   

19.
制造网络的面向服务架构(SOA)应当满足敏捷制造的需求,在SOA中任何瓶颈,如网络资源的分配策略,会影响到制造网络的服务敏捷性。在分析制造网络多Agent结构的基础上,提出了一种制造信息的分类方法。利用制造应用模型,提取系统运行的状态空间,通过制造系统单元间的组合和不同部件网络输出的决策间的融合,集成神经网络输出各制造单元信息调度权重。实验结果表明,此方法符合制造网络设计的原则和依据,以制造应用为中心,最大限度满足制造应用的需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号