期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

顾益军樊孝忠黄维金于江德《华南理工大学学报(自然科学版)》2004,32(Z1):96-98

介绍了一种基于知识库的方式获取文本中讨论线索的方法.该方法根据文本出现的控制词与概念网中各个概念的关联,找出文本以及文本中各个段落的主题概念,并通过对概念网中的概念进行关系计算,获取文本的讨论线索,较好地避免了因文本叙述方式的不同以及指代的存在而带来的影响.实验结果显示,该方法对文本主题识别的准确率达82%,对段落主题识别的准确率达70%. 相似文献

2.

基于最大熵模型的词位标注汉语分词

于江德王希杰樊孝忠《郑州大学学报(自然科学版)》2011,(1):70-74

近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好. 相似文献

3.

基于Ultra Search的桌面搜索设计与实现

于江德樊孝忠尹继豪《广西师范大学学报(自然科学版)》2007,25(2):218-221

提出一种基于Ultra Search的桌面搜索设计和实现方案,简要介绍了Ultra Search体系架构和各个组件的功能,然后给出该桌面搜索的框架和各个组件的实现细节,并和多个桌面搜索工具在相同的数据源上进行测试,结果表明,该桌面搜索有不错的搜索性能。相似文献

4.

一种基于字和子串联合标注的汉语分词方法

于江德谷川葛文英樊孝忠《山西大学学报(自然科学版)》2011,34(3):357-362

近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好. 相似文献

5.

基于条件随机场的中文科研论文信息抽取 总被引：1，自引：1，他引：1

于江德樊孝忠尹继豪《华南理工大学学报(自然科学版)》2007,35(9):90-94,106

科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同. 相似文献

6.

基于单个词语特征模板的汉语词性标注

于江德周宏宇余正涛《山西大学学报(自然科学版)》2011,34(4):513-517

针对实际应用中语言模型应该占用更小存储空间且加载速度快等需求,采用最大熵模型进一步研究了汉语词性标注中设定的特征模板集和训练后模型大小、标注精度等指标之间的关系,并在国际汉语分词评测Bake off2007的PKU、NCC、CTB三种语料上进行了对比实验.实验结果表明,双词语组合特征模板大大增加了训练后模型的大小,对汉语词性标注精度却没有提高,而基于单个词语特征模板训练后的模型大小不足原先大小的1/5,标注精度却没有下降. 相似文献