排序方式: 共有80条查询结果,搜索用时 265 毫秒
11.
消解中文三字长交集型分词歧义的算法 总被引:18,自引:0,他引:18
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。 相似文献
12.
离合词是现代汉语中一种特殊的语言现象。文章对动宾式和并列式离合词的扩展形式进行了细致的描写,并分析了这两类离合词的扩展形式的特点,认为动宾式和并列式离合词的扩展形式不同于典型的动宾结构,在中文信息处理系统中,应该建立离合词词库,对离合词的扩展形式做出专门的符号标注。 相似文献
13.
中文新闻关键事件的主题句识别 总被引:2,自引:0,他引:2
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。 相似文献
14.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台. 相似文献
15.
16.
针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇间的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断.由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值.通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的. 相似文献
17.
18.
19.
知网(英文名称HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,本论文以知网中的知识词典为资源,以两篇真实文本为示例,研究基于知网的文本标注,以探讨知网知识在中文信息处理中的作用。 相似文献
20.
《太原师范学院学报(自然科学版)》2012,(3):F0002-F0002
梁吉业,男,1962年生,教授、博士、博士生导师,太原师范学院院长,山西大学计算智能与中文信息处理教育部重点实验室主任。1998年9月-2001年12月在西安交通大学信息与系统科学研究所渎博士研究生,获博士学位。 相似文献