首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。  相似文献   

2.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

3.
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。  相似文献   

4.
基于优化最大匹配与统计结合的汉语分词方法   总被引:1,自引:0,他引:1  
汉语自动分词足中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题.基于训典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频汁算耗费时间.本文提出优化最大匹配与统汁结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略.然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率.最后,基十分词算法实现中义分词系统,并通过实验对算法进行了分析和验证.  相似文献   

5.
基于演化超网络的中文文本分类方法   总被引:2,自引:0,他引:2  
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以X2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.  相似文献   

6.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

7.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

8.
一种不需分词的中文文本分类方法   总被引:2,自引:1,他引:1  
提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%.  相似文献   

9.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

10.
随着高校图书馆馆藏书目的增加,读者在没有具体借阅目标的情况下,从图书馆借阅图书所花费的时间越来越多.针对这种情况,提出了基于内容的高校图书馆推荐算法,详细论述了中文分词、词语权重的计算、向量空间模型的构建以及图书相似度的计算,并对中文分词程序和词语权重算法在短文本中的应用进行了改进,对构建向量空间模型时遇到的稀疏矩阵问题给出了解决方法.研究结果表明,利用基于内容的推荐算法为读者推荐图书,比较符合读者兴趣,容易被读者接受.  相似文献   

11.
爱情是古今中外文学作品中永恒不变的话题,而诗歌以其凝练、优美的语言最充分地体现了这一主题。在中英爱情诗中,除了语言风格上的很多相同之处外,在表现手法上也有诸多相同点,如:借助比喻等修辞手法;借助动植物以及自然现象来抒发感情等等;但由于中西方的文化、民族个性差异等等使得中英诗歌在表述爱情时又有不尽相同之处。  相似文献   

12.
林庚先生毕生创作并潜心研究中国诗歌,取得了许多创造性的理论和实践成果,为中国诗学作出了卓越的贡献。他提出的"节奏音组"和"半逗律"的理论创见,丰富了对于中国诗歌民族形式的理性认知,并为格律新诗的创作奠定了理论基石;他在"楚辞"、唐诗和诗歌史研究领域取得了公认的成就,开创了中国诗学研究的新局面;他人格精神的诗学价值对于当下中国诗界也具有示范意义。  相似文献   

13.
中国古诗是中国文学的精华,是中国文化的结晶。文化意象是诗歌翻译研究中的一个重要概念。指出在古诗英译中出现的文化意象错位,从文化视角探讨英译中文化意象的解读与重构,揭示这一视角下诗歌翻译研究的独特性和显在优势。  相似文献   

14.
宇文所安通过对中国诗歌的阐释构建了一种诗歌理论以为诗歌辩护,其中心就是彰显诗歌的审美意义。在宇文所安看来,现代性的语境里对中国古典文学进行阐释的意义就在于为现代人提供一种精神价值,以对抗现代性对人性的侵蚀。因此,他的中国文学史研究方法是阐释的,而不是考据的;是意义的,而不是文献的。这种方法虽然有误读的可能,但其启示是巨大的。它关注古典的当代意义;他的阐释将传统当代化作为目的,突出了古典诗歌具有的价值关怀:文学以人性为中心,尊重人的价值。  相似文献   

15.
汉语诗律是中国古典文学和汉语研究的一个重要领域。长期以来人们只重在近体诗也即格律诗的领域而忽视包括古体诗在内的汉语诗律整体研究。本文对十九世纪清末董文焕的诗律研究集大成之作《声调四谱图说》进行了探讨,总结出其四大特点和贡献,从理论上对其价值进行阐述.并指出在诗律、文学史、汉语等研究领域的意义。  相似文献   

16.
中国古代诗词的悲剧心态解析   总被引:1,自引:1,他引:0  
中国古代诗词的悲剧心态已经成为古代诗词文学传统悲剧性的内定因素,走不出的政治荒漠、生命觉醒的伤痛、现实的无法超越构成了悲剧心态的原因.  相似文献   

17.
苦吟在唐代是一个突出的社会风气。作为一种表达行为却很早出现,并且贯穿了古典诗歌发展的整个过程。对于如此独特持久的文学现象,学界并未充分重视和深入挖掘。迄今为止,苦吟研究的成果主要集中在近三十年。本文对近三十年来苦吟研究的现状进行了勾勒,对存在的问题提出看法,并展望了研究前景,以期为中国古典诗歌研究寻求一条新脉络提供借鉴。  相似文献   

18.
中国古典小说在形成和发展过程中几乎汲取了前代所有其它文体样式的成就,于古典诗歌中尤其受益良多。“意象”是探讨古典诗歌艺术的重要范畴。“意象”在古典小说作品中的具体呈现形态,最突出的就是“意象化情节”。“意象化情节”充分利用“意象”在小说情节结构中的作用,除了兼有“意象”主客交融、虚实相生的优点外,还具有动作性与表演性,是小说情节演进中的一环。“闺怨”是古典诗词的传统题材,由此形成了丰富的“意象”景观。古典小说尤其是人情小说经常涉及“闺怨”这一传统题材的描写,当然也会自觉借鉴古典诗词已有的艺术表达成就。本文试图以《金瓶梅》、《林兰香》为例,探讨古典小说中“闺怨”的“意象化情节“建构。  相似文献   

19.
中国古典诗歌的传统研究离本体研究较远,高度不够.李娓教授的<古体诗歌艺术研究>以诗情道性阐说的方式达到了诗歌艺术本原的新发现,从哲学的高度和新的角度开辟了古典诗歌研究的新途径.该著以"天人合一"的哲学思想为立论根基,从天道与诗道的形而上品质的高度,以新的角度审视并研究诗歌审美体验、诗歌语言、诗歌炼意、诗歌旋律、诗歌修辞诸多方面的表现特征及其形而上渊源,提出了一系列的新命题与新观点,为我国诗歌艺术的理论研究草构一个新框架.  相似文献   

20.
运用接受美学基本原理,对中国古典诗歌的模糊性进行审美分析,提出了英译中国古典诗歌的模糊美应遵循审美对等的原则,并通过运用词汇转义、语域对等、最佳协调的策略,对汉诗英译过程中更为理想地再现原文的美学要素进行了探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号