首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
古汉语文本信息处理和语义理解一直是自然语言处理领域的重难点之一,而断句又是语义理解中的基础任务。传统的机器学习方法解决古汉语断句问题需要基于大量的专业标注语料,过程繁琐,效果不佳。本文基于已有的BERT模型,在《四库全书》中文繁体版全文数据集的基础上构建了SikuBERT预训练模型,并将该模型迁移到《方志物产》数据中,完成了在不同数据集上的古汉语自动断句实验,实验最优F值为77.23%,比基础的BERT模型断句效果高出10.3个百分点。实验结果表明,SikuBERT模型具有较好的古汉语断句效果,且在有一定关联性数据集合中的迁移性较好。  相似文献   

2.
利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题.为了解决这一难题,设计了一种六字位标记集,提出了一种基于层叠式条件随机场模型的古文断句与句读标记方法.基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记.实验在5 M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%.  相似文献   

3.
提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU(gated recurrent unit)的双向循环神经网络进行古文断句。在解码过程中,该算法不仅利用神经网络输出的概率分布,还进一步引入状态转移概率和长度惩罚,以便提高断句准确率。在大规模古籍语料上的实验结果表明,所提方法能够取得比传统方法更高的断句F1值。  相似文献   

4.
基于MapReduce的中文词性标注CRF模型并行化训练研究   总被引:1,自引:0,他引:1  
针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。  相似文献   

5.
为解决传统的基因识别算法主要关注编码区的整体特性,而并不着重考虑个别位点的信息,因此难以准确地识别出剪接位点的缺点,提出了基于条件随机场的剪接位点预测方法,条件随机场能够更好的处理标记数据之间的依赖关系,并且能够避免数据标记偏置的问题。实验结果表明基于条件随机场的剪接位点预测方法是一种合适的方法,能够取得更好的效果。  相似文献   

6.
针对带有中图分类号的英文图书数据量小以及类别不平衡的问题,将图情领域的文本增强策略(《美国国会图书馆分类法》到《中国图书馆分类法》的类目映射方法和基于中-英文平行的《汉语主题词表》的语义增强方法)与一般领域文本增强策略(向原始英文文本插入标点或连词)相结合,旨在增强模型泛化能力。实验表明,综合后的策略能有效地提高模型在测试集的表现,正确率和宏F1值分别上升3.61和3.35个百分点,效果优于其他单一的文本增强方法。最后,通过BERT词向量可视化与词语信息熵计算,分析出丰富的邻近词和语法上的连缀功能是插入标点或连词方法有效的原因。  相似文献   

7.
《史记正义》反切考   总被引:5,自引:0,他引:5  
一、材料来源和处理《史记正义》的作者张守节于史书无传,《四库提要》云:“始末未详”1,我们只能从他的《史记正义序》中知道他当过诸王侍读,率府长史,而不得知其为何方人氏.据张氏此序,《史记正义》书成于唐玄宗开元二十四年论(公元736年),上距《切韵》问世135年.《史记正义》原来单独成书,后人将其与裴《史记集解》、司马贞《史记索隐》一起各自拆散,置于《史记》相应句下,合刊成今通常所称的《史记》三家注.三家注.在拆散刊行中,《正义》被妄加规削2.如今通行的中华书局标点本《史记》.其底本虽经张文虎精校,于《正…  相似文献   

8.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

9.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

10.
自然语言处理作为人工智能领域的一个重要分支,随着计算机信息处理技术的发展,已经取得较大进展.但是古汉语信息处理研究却相对滞后.本研究选择编年体体裁的《明史》作为研究语料,通过交叉检验方法比较了基于条件随机场的三种图模型(无边图模型、完全图模型以及嵌套图模型)在古汉语词性标注中的应用,发现完全图模型和嵌套图模型在《明史》的词性标注中的效果优于无边图模型,分词(Word Segmentation)在一定程度上可以提高古汉语词性标注的效率.另外,还发现基于条件随机场的图模型在分词前后对测试集中未登录词的词性标注效果均比较低.  相似文献   

11.
由于化的突然转型,中国古代论“失语”是历史的必然。中国古代论在大时代的变迁下并非是整体毁灭。而是依照其特有的方式参与和渗透到现当代论中来。因而化转型后的中国古代论只能是作为学遗产看待。没有必要也不可能再通过现代转换起死回生。中国当代论是以传统作为参照物,对西方学理论进行理性选择和本土化的结果。重建中国论应该在现有的基础上大胆创新,而没有必要对古代论进行现代转换。  相似文献   

12.
中国古代文论已严重脱离了当下文艺生活。它不但面临着对中国现当代文学以及在国际文论界的失语,而且还面临着对中国古代文学自身的失语,必须主动、及时地进行现代转换。西方文论是中国现当代文论的母体,古代文论的现代转换也需要积极有效地借鉴和利用西方文论。如何看待西方文论在中国文论建设中的地位和作用,是事关中国古代文论的现代转化能否顺利实现的一个大事。  相似文献   

13.
近几年来,学术界提倡中国文学研究应打通古今的呼声颇高,其宗旨主要在于突破学科区隔的壁垒,对中国文学的发展作贯通性的研究。因而在越来越多的同仁把它作为一种视角和方法运用于个案研究的同时,有必要结合学科建设的需要就相关的基本问题进行学理思考,包括古今内涵的界定、与传统文论中通变说的联系、文学史的分期、开展中国文学古今演变研究的现实意义以及具体的研究思路与研究方法等。  相似文献   

14.
日语的标点符号是为了分割语句,便于对文章的理解;汉语的标点符号是辅助文字记录语言的符号,是书面语的有机组成部分。日、汉语标点符号的形式并非对等。在翻译过程中,既要正确地使用标点,又要准确地将标点符号所表达的深层含义转换为目的语。  相似文献   

15.
语言学家对标点符号作了很多研究,但有些现象尚待解释,主要是标点符号产生的理据以及为什么英语和汉语标点符号体系的形成分别滞后于书面语言长达2000多年和3000多年之久。文章依据语言的社会性、离散性、结构-边界有界性以及标点符号与科技发展的关系,分析标点符号产生的理据,提出标点符号体系的产生和形成是以科技发展为必要条件,是语言自身发展规律的必然,认知方式的体现。  相似文献   

16.
中国传统的格律文学倾倒了古今中外的无数读者.而以阴阳上去入声划分平仄的音韵体系则展示了格律文学抑扬顿挫的音乐节奏美.研究和探讨现代汉语中仍然存在的古入声字现象,对于促进中国传统文化的继承和发展,无疑具有不可忽视的现实意义.  相似文献   

17.
理性是古希腊数学的精神内核,公理化体系成为现代数学的根本特征之一.中国古代数学以实用为目的,直观性和机械化、程序化是它的的算法特点.古希腊数学与中国古代数学都有现代数学思想的萌芽.  相似文献   

18.
文章略述了中国古代混合建筑发展的史迹。论述了防火技术对于古代混合建筑发展的影响。分析了混合建筑中石门框、石木混合柱、瓦和天井的技术意义。剖析了古代混合建筑“三封一敞”形式的科学性。文章应用现代雷电理论解释了中国古代混合建筑应用金属屋面防雷的科学道理。在沦述古代混合建筑技术意义的同时,对于古代技术的“古为今用”作了详细的探讨。  相似文献   

19.
雅乐--特定时代和文化的象征   总被引:1,自引:0,他引:1  
雅乐是中国传统音乐的重要组成部分,它曾书写了中国古代历史的难忘的一页。深入分析和探究它的历史和文化特征是具有现实意义的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号