首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。  相似文献   

2.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

3.
消解中文三字长交集型分词歧义的算法   总被引:18,自引:0,他引:18  
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。  相似文献   

4.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

5.
为提高领域本体概念及概念之间关系提取效率和准确率, 提出基于中文文本的领域本体学习模型。在提取候选概念的过程中, 采用修改后的关联规则频繁项计算方法对合
成词进行处理, 并结合位图存储分词处理后术语间的物理相邻关系, 再通过计算领域相关度和领域一致度对候选概念进行筛选, 最后利用关联规则可信度和层次聚类的方法分别提取概念间的非分类关系和分类关系。实验结果表明, 该模型对领域本体学习具有合理性, 提出的算法与基于互信息的本体学习相比较, 在概念和关系的提取
上具有较高的准确性。  相似文献   

6.
提出一种启发式的信息抽取算法, 并利用该算法建立一个信息抽取系统. 该系统基于文本分块, 利用文本的语义特征和结构特征, 抽取具有特征的状态, 在此基础上, 利用反向动态规划和正向A*算法, 抽取剩余的无特征状态. 通过对100篇论文头部进行测试的结果表明, 精确度和召回率比基于单词和传统Viterbi算法的方法均有所提高, 启发式算法的性能优于Viterbi算法.  相似文献   

7.
基于词形的最佳路径分词算法   总被引:4,自引:0,他引:4  
在基于词形统计模型分词算法的基础上,通过以存词表结构的有效组织及改进词的匹配算法和切分算法,并以最佳路径法实现了一种快速的基于词形的分词算法,在保证了较高准确率的同时,大大提高了分词速度。  相似文献   

8.
基于条件互信息下聚类的朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
 采用条件互信息来度量任意2个条件属性之间的关联程度,采用互信息度量各条件属性与类属性间的关联程度,以此作为将各条件属性进行聚类的准则,提出一种新的将条件属性进行聚类的分组技术.同时,结合朴素贝叶斯分类算法,构造了改进的朴素贝叶斯分类模型.通过仿真实验表明该文提出的算法具有较好的分类性能.  相似文献   

9.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

10.
针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。  相似文献   

11.
基于遗传算法和BP算法的混合算法   总被引:4,自引:1,他引:3  
结合神经网络的优化问题,提出一种新的混合算法.该算法是在遗传操作中嵌入BP算子,有效地结合了遗传算法全局寻优与BP算法快速收敛的特点,同时采用二进制编码和实数编码将神经网络的结构与权值混合编码到串中,实现了结构与权值的同步优化.仿真结果表明,新算法既能够快速地收敛到全局最优解,又能够在简化网络结构复杂度的同时得到网络权值的最佳逼近.  相似文献   

12.
本文就函数优化问题,结合遗传算法和 BP 算法的优点,提出一种新的混合算法。该算法既有较快的收敛速度又能以较大概率收敛到全局最优解,数值实验结果表明该算法显著优于遗传算法和 BP 算法。  相似文献   

13.
为了提高目标跟踪算法在复杂环境下的稳健性,提出了一种将基于颜色特征的均值漂移算法和SURF(Speeded UpRobust Features)特征匹配算法相融合的目标跟踪方法。该算法首先采用颜色特征和SURF特征分别描述目标模板,利用均值漂移算法快速估计目标局部最优解。但仅采用单一颜色特征来估计目标位置,跟踪误差逐渐累积;采用SURF算法精确估算目标位置和尺度,及时修正累积误差。最后根据相似性度量Bhattacharyya系数选择较优的结果作为当前帧跟踪结果,且更新目标模板。实验结果表明,算法在目标发生较大形变、尺度变化、周边具有表观相似目标时具有很强的稳健性,且满足跟踪实时性要求。  相似文献   

14.
为解决传统 K-means 算法中因初始聚类中心选择不当而导致聚类结果陷入局部极值的问题, 采用蝙蝠算法搜寻 K-means 算法的初始聚类中心, 并将模拟退火的思想和基于排挤的小生境技术引入到蝙蝠算法中, 以克服原始蝙蝠算法存在后期收敛速度慢、 搜索力不强等问题。 同时, 通过测试函数验证了其有效性。 最后利用改进后的蝙蝠算法优化 K-means 算法的初始聚类中心, 并将该改进的算法与传统的 K-means 算法的聚类结果进行了对比。 实验结果表明, 改进后的算法的聚类性能比传统的 K-means 算法有很大提高。  相似文献   

15.
在关联规则挖掘中,Apriori和FP-tree是两种最基本的算法.文章讨论这两种算法的基本思想、数据挖掘步骤、优缺点并以具体的实例描述两种算法的实现过程.深入分析这两种算法为关联规则挖掘算法的扩展和改进奠定了基础.  相似文献   

16.
提出一种基于IN算法构造分类器的剪枝优化算法C IN.针对IN算法利用对数似然比统计量进行假设检验存在的统计意义不明确的问题,本文算法在给定层每一节点引入了样本数阈值和属性值阈值的计算,从而保证检验的有效性.给出了算法的理论依据,并且推导出了对数似然比统计量计算公式成立条件.实验表明,该算法能够消减数据维数并且可以从大规模数据集中提取简明的规则.  相似文献   

17.
基于遗传算法的改进GLA算法   总被引:1,自引:0,他引:1  
提出了基于遗传算法的改进广义Lloyd算法(GLA)。它以种群为基础,使用选择算子对种群进行有针对性的操作,通过变异算子以提高种群的平均适应值,使其逃离局部最小点,最后采用交叉算子以增加个体的多样性,又降低了该算法对初始码书的敏感程度。高斯-马尔科夫序列实验表明,该算法较好地实现了全局最优,并有助于克服对初始码书较为敏感的缺点。  相似文献   

18.
基于遗传算法的机场调度优化算法   总被引:6,自引:0,他引:6  
随着航班数量的不断增长,航空管理系统已不堪重负,机场容量将成为航空运输发展的瓶颈.为了解决机场容量不足问题,本文将机场调度问题分为杌位分配和滑行道分配两个过程,设计了适合于求解机位分配和滑行道分配问题的遗传算法.对停机位分配问题,在遗传进化过程中为促进算法收敛,采用贪婪算法对种群进行优化,并引入模拟退火思想对适应度函数进行修正.对滑行道分配问题,为适合遗传算法求解,首先将问题转化为图的形式,并设计了相应的遗传编码方式.数值模拟实验表明所提算法能够比较有效地解决机位分配和滑行道分配问题.  相似文献   

19.
根据关联规则挖掘的要求,结合遗传算法的特点,提出了一种基于遗传算法的关联规则挖掘算法,在基本遗传操作选择、交叉、变异的基础上,引入了挑选操作,取消了交叉、变异概率,给出了详细的算法设计及描述,并通过实例证明了算法的性能。  相似文献   

20.
一种改进的基于遗传算法的K均值聚类算法   总被引:2,自引:0,他引:2  
结合遗传算法和K均值聚类算法的优点,提出一种改进的基于遗传算法的K均值聚类算法.将遗传算法的编码方法、初始化、适应度函数、选择、交叉和变异等较好地应用于聚类问题,不仅解决了K均值聚类算法中K值难以确定、对初始值敏感以及遗传算法存在收敛性差和容易早熟的缺点,而且实现了聚类中心的优化选择、K值的自动学习和基因的自适应变异等...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号