排序方式: 共有80条查询结果,搜索用时 156 毫秒
71.
《山西大学学报(自然科学版)》2005,28(4):F0003-F0003
山西大学计算智能与中文信息处理实验室是顺应国际计算机科学与技术、信息科学及其相关学科交叉融合的发展趋势,集计算机与信息技术学院、计算机应用研究所的科研资源整合而成。2005年经教育部批准成为省部共建的教育部重点实验室。实验室由山西省教育厅主管,依托于山西大学。现任实验室主任为梁吉业教授,学术委员会主任为清华大学张钹院士。 相似文献
72.
从中文信息处理的角度提出了动词类义的概念,讨论了动词类义的层级问题,并且谈到了动词类义研究的实践意义。动词类义的提出将为中文信息处理技术注入新的活力,有望解决一些现行技术中的瓶颈问题。 相似文献
73.
基于最大熵模型的交集型切分歧义消解 总被引:6,自引:0,他引:6
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 相似文献
74.
75.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC++/MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台. 相似文献
76.
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的. 相似文献
77.
为了进一步提高完全句法分析标注的准确率,对人工修正的完全句法分析语料进行剖析,从分词、词性和句法结构三个层面检验一致性,总结标注结果不一致的类型,并提出基于分层的自动发现不一致现象的方法及相应的消解策略。实验表明,利用该方法可使语料库标注的准确率提高2.5%。 相似文献
78.
中文自动分词不仅是中文信息处理的基础性工作而且对后续句法分析、语义分析等中文信息处理流程有着很大的影响。本文基于最小费用最大流,提出一个具有拓展性的中文分词算法模型,实验证明了本算法能够准确地对输入文字串进行切分。 相似文献
79.
笔式中文电脑的笔技术研究 总被引:1,自引:0,他引:1
讨论了笔式中文电脑中的关键技术;电子笔硬件体系结构及原理,软件驱动体系等问题提出了中文笔式点字输入方法并阐述其特征,论述了笔作为一种很好的人机交互手段,在电脑中的应用将有利于发展中国的传统汉字文化。 相似文献
80.
手写体汉字机器识别技术的研究不仅具有重要的理论研究价值,而且具有广阔的应用前景。本介绍了手写体汉字识别技术的原理,研究历史及技术困难,综合分析了当前国内外主要识别方法及其特点,展望了该技术今后的发展方向。 相似文献