首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注,最终得到带有未登录词语义义项标注的语料资源。  相似文献   

2.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

3.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

4.
介绍英汉机译中识别未登录词的一种新方法.首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作的猜测规则,正确标注未登录词.测试结果说明,标注未登录词的三种性能指标分别为:大约93.8%的查全率、76.3%的查准率及94.1%的覆盖率.在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率.从而改善英语分析性能,促进英汉机译质量提高.  相似文献   

5.
通过分析"感到"与"觉得"这一对心理动词的共同点,对两词的语义特征进行分析,并确定了两词的性质;同时,通过对大量语料的考察,分析了两词在选择搭配成分时的不同,进而在句法上实现了对两词同中辨异的目的.  相似文献   

6.
基于登录词邻接关系的双条件概率的领域术语抽取算法   总被引:2,自引:2,他引:0  
领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果.  相似文献   

7.
通过对目前自然语言处理领域中基于深度学习的词向量表示方法对不同文本语料文本表达的有效性进行分析,将主流词向量训练方法用于不同的文本语料集,包括英文维基百科语料、新闻语料、论坛语料和Web语料进行训练,并采用三种评价指标:余弦相似度平均差、斯皮尔曼等级相关和米克罗夫类比方法对训练出的文本词向量表达方法进行比较.实验结果表明,针对上述四种语料,词向量能够实现对文本的有效表示,但各个语料训练出的词向量的通用性不同,其中维基百科语料训练的词向量的通用效果最好.  相似文献   

8.
汉语自动分词系统中切分歧义与未登录词的处理策略   总被引:3,自引:0,他引:3  
本文主要综述了汉语自动分词系统中,切分歧义与未登录词的表现形式以及相应的处理策略,指出在没有完全突破现行机器翻译理论的前提下,增强机器翻译系统中切分歧义与未登录词的处理能力,是提高系统准确率的一种有效措施.  相似文献   

9.
中文搜索引擎中的分词技术研究   总被引:1,自引:0,他引:1  
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径.如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显.对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词.  相似文献   

10.
针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.  相似文献   

11.
论中国古代文学中的"悲秋"意识   总被引:1,自引:0,他引:1  
“悲秋”是中国古代文学中一个源远流长的主题。“睹落叶而悲伤,感秋风而凄怆”,这一“悲秋”文学主题从《诗经》、《楚辞》到“建安文学”,从唐诗宋词到元曲清诗,历经上千年的发展、嬗变和积淀,从无意识到有意识,最终形成特具中国传统文化内涵的“悲秋”文学意识。“悲秋”文学意识的形成与中国传统文化有着深刻的精神联系,同时也可窥见中国传统士人悲剧性命运之一斑。  相似文献   

12.
韩愈的“文中之诗”,是指其文章作品中所存在的诗体。此处的“诗”是个广义概念,凡用韵语写成的作品均可视为“诗”,相当于“押韵之文”。对韩文中的“有韵之文”的性质判定,我们当从韩愈自道,其时人及后人的看法乃至今人的见解等三方面入手。韩愈的“文中之诗”,具有多方面的意义。一方面可由此进一步把握韩愈的诗学观、古文观,并由此可见韩愈诗歌多样风貌的成因,另一方面有利于对韩愈“以文为诗”现象的公允诠释与《全唐诗》的“新”辑佚。  相似文献   

13.
我国的古诗词,远从上古的讴歌吟呼,历经《诗经》、《楚辞》、汉魏南北朝乐府、唐诗、宋词均为合乐之诗。可见,音乐和诗词之间有着天然的姻亲关系。古典诗词吟诵在我国古代诗词创作和传播中生生不息地传承繁衍。  相似文献   

14.
"不墨守盛唐"几乎成了近代"宋诗派"审美宗趣的最大表征,尽管这一概括显得较为含混不清,却揭示了这样一个事实,即"宋诗派"所取法的诗法家数是以特定的文本为实质内容的."三元"与"三关"说为"宋诗派"主流所孜孜追摹的范型文本,但具体辨绎,各家所宗主的模本并不完全一致,体现出各家不同的审美取向,而其羽翼的多向拓展,又从各方面丰富了"宋诗派"的诗学内涵,也为"宋诗派"开拓出宏阔的局面.  相似文献   

15.
《全宋诗》第69册《林景熙·三》据清戴第元《唐宋诗本》卷六二辑录佚诗一首,题《知宗柑诗用韵颇险,予既知之,复取所未用之韵,续赋一首三十韵》,实误。此为宋王十朋诗,见《梅溪集》后集卷十九,应加订正。  相似文献   

16.
"诗史"思维源自中国早期社会"诗史合流"的传统,在漫长的理论架构和文本阐释过程中,杜诗"诗史"说形成"少陵生前流传""贞元、元和之际产生""宋代形成共识"等几种主流观点.用文献考证和文本关照的方法对上述诸观点甄别析辨,可知"唐代尚未出现以诗为史的普遍思潮,杜诗'诗史'之名在学者中形成共识应该是宋代的事"的论断较为审慎,更多文献的考证是对"诗史"之名缘起进一步界定的关键.  相似文献   

17.
"镜"是中国古典文学中的传统意象。唐诗中"镜"意象的频繁出现与唐代的社会经济环境、生活环境以及其自身的流衍是密切相关的。唐诗中的"镜"意象表达了诗人怀才不遇的苦闷之情和对时光易逝的感叹。  相似文献   

18.
行卷诗是科举制衍生而出的“行卷”活动风尚中的一种重要文体,具有独特的创作特色。唐代是科举制成熟定型和行卷最为盛行的时代,同时也是中国古代诗歌创作的鼎盛时期,故而其行卷诗在各方面得天独厚的条件中形成了选材自由、内容新奇、风格多样及表达技巧高超等特色,并对唐诗的发展产生了重要的影响。  相似文献   

19.
白居易诗题"亚枝花"之"亚",历来释义不一。根据其在古代汉语中的用法与张相《诗词曲语辞汇释》卷五的解释,结合元稹《使东川.亚枝红》自注,取其纵者而言,意为"低"、"俯"、"垂","亚枝"解为"垂枝"较为恰当。  相似文献   

20.
<生命的礼赞>是十九世纪美国著名诗人亨利·华兹渥斯·朗费罗的一首名诗,也是最早译成中文的一首诗.在众多译本之中,黄新渠的译本比较接近原文的精神实质和文体特点.因此,本文从韵律、节奏、文化因素及句子层面等分析一下黄新渠的译诗特色.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号