首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
本文对中文微博中主客观分类特征的选取进行了研究,通过词典与统计相结合的方法提取了基础情感词、语气词、程度词等8个候选特征,对提取的候选特征,提出了一种基于粗糙集与概率加权的特征选择算法,通过该算法最终选取了基础情感词、!或!、网络观点词、语气词、形容词、程度词作为分类特征。实验结果表明,本文提出的方法能达到较好的分类效果。  相似文献   

2.
SVM-KNN分类器在网页分类中的应用   总被引:1,自引:1,他引:0  
为了提高中文网页自动分类的分类精度,将SVM-KNN方法用于中文网页分类.提出了一种中文网页的表示方法,在将下载的网页全部表示为向量空间的向量后,用SVM构造了一个多类分类器.在分类时通过在特征空间计算网页所表示的向量和分界面的距离决定采用SVM方法还是KNN方法对其分类.实验证明该方法是一种有效的方法,对网页分类的各类,使用该方法均比使用SVM方法具有更高的分类精度,同时能缓解SVM训练时对核参数的选择困难问题.  相似文献   

3.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题.  相似文献   

4.
针对目前互联网安全的主要威胁之一网页木马,基于网页木马的树状链接结构特征,引入频繁子树挖掘算法,对前期积累的4万多个恶意网页木马场景进行子树模式挖掘,提取了35个网页木马场景共同子树结构特征,利用这些特征在网页木马动态分析过程中辅助检测。实验表明:在加入基于子树特征的检测方法判定的网页木马中,动态检测方法有近20%的漏报。因此,基于子树特征的检测方法有效地提高了动态检测的检测能力和效率,同时挖掘出的典型子树模式提供了网页木马分类和溯源的依据。  相似文献   

5.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

6.
基于URL类型优先级的入口页面查询算法   总被引:1,自引:0,他引:1  
入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的. 依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型. 通过URL类型优先级(URL type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系. 据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub page). 对比实验数据表明,PERS算法对检索的性能有较大提高.  相似文献   

7.
文章提出了一个新的新闻网页分类方法(WPCM),采用主成分(PCA)和熵值相结合的特征选取支持向量机(SVM)的分类方法.首先把网页用特征项权重予以表示,使用主成分方法抽取最相关的一些特征,然后从每一类中选择在该类具有代表性的词并计算这些词的熵,把两种方法提取的特征合并之后作为支持向量机分类器的输入,实验结果显示,该网页分类方法在体育类新闻中取得了良好的效果。  相似文献   

8.
设计并实现一个网页分类系统,采用相同的特征权值计算方法,特征选择算法以及分类算法,进行基于分词的网页分类系统和基于N-G ram的网页分类系统的对比实验,分析两者的分类效果。结果表明,基于N-G ram的网页分类系统能达到并在一定程度上高于基于分词的网页分类系统的效果。  相似文献   

9.
中文网页自动分类新算法   总被引:8,自引:0,他引:8  
为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率  相似文献   

10.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

11.
以财富网2 000多条商务语词为语料,分析商务英语新语词的理据及其能产性排序。发现商务新词构词方式频率最高的是在通用语词基础上添加商务语义。复合、缩略、拼缀也是商务新词最主要的构词方式。将商务英语新语词能产性排序与通用英语新词能产性排序相比较,突显了商务英语语言简洁、精准、生动、高效的表达特色。商务英语新语词能产性研究还折射了商务英语语言的发展趋势:变化速度快、语义量扩大、形式趋简洁、最贴近语言应用的现实。建议重视商务英语语词研究,填补我国ESP语汇研究的空白。  相似文献   

12.
浅析具有中国特色词语的英译   总被引:1,自引:0,他引:1  
随着社会的发展进步,具有中国特色的新词语不断出现在我们的日常生活中,怎样翻译这些词语成为我们目前所面临的急迫任务。文章分析并探讨了具有中国特色的新词语的特点、应采用的翻译方法等问题。  相似文献   

13.
该文探讨运用美学的形式美法则及审美中的联想和想象等方法,把单词按英语词汇进行重新编排,或把一组词和几组词有机地结合在一起,使其由不相干变成有含义的相关的短语和句子,其目的是按照词汇构成本身就有的内在形式和法则,更合理、更顺畅、更牢固地记住和使用所学的单词和词组。  相似文献   

14.
当代汉语新词语特点浅析   总被引:1,自引:0,他引:1  
当代汉语新词语的特点是 :外来词增多 ;港台词语大量涌入并与普通词汇并存 ;术语增多并趋于普通化 ;新词语中出现词群现象。透过这些新词语 ,可以让人们感受到语言与社会生活的密切关系  相似文献   

15.
李实 《科学技术与工程》2012,12(21):5181-5186
目前互联网已经成为信息和观点的交换主要媒介,因此也成为了手机用户对于产品观点的最佳来源.但是目前为止研究中文文本的评论挖掘问题的研究还比较少.为了进一步发展这一领域的研究,旨在从中文客户评论中得到用户关心的产品特征.方法基于关联规则理论中的Apriori算法.主要通过计算频繁特征项的各分量在文本中出现位置的概率,从而确定挖掘到的候选产品特征中词汇的语序,使挖掘结果满足中文的正规语法要求.采用因特网上的评论数据作为语料,通过实验结果表明所提出的方法使得中文评论中的产品特征挖掘性能有所提高.  相似文献   

16.
以中国期刊全文数据库(CNKI)中法家经典论文文摘为数据分析来源,借助计算机应用系统,对论文文摘进行了词语与词组的挖掘、整理,建成了法家高频词词库,采用词频分析软件及词频分析方法,对高频词语进行了多途径、广角度的系统性、综合性比较研究,探讨了法家思想精髓及异同点,开拓了我国法家经典及古典文献研究的新途径。  相似文献   

17.
汉语词语分界的难点之一就是双音节中补型词语。从某个角度看,人们习惯于把此类短语划归在词的界限内,使这种分界具有不平衡性。事实上,从语音形式、意义内容、结构关系和功能特点上看,中补型复合词在总量上是比较少的,不仅当然少于此类短语,也少于主谓型、动宾型、偏正型和联合型复合词。  相似文献   

18.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

19.
新时期汉语词汇中英源音译词探析   总被引:1,自引:0,他引:1  
吕改改 《山西科技》2009,(4):43-44,47
随着改革开放的深入发展和对外文化交流的日益扩大,汉语从英语中借用的词语数量也不断增加,大量新词新语也应运而生。音译词作为一种跨语言、跨文化交际过程中的语言现象,是跨文化交际的必然产物。  相似文献   

20.
《汉语大词典》是目前最具权威的一部汉语语词词典,但其书证晚出现象严重,补证这些滞后的书证,对于词语溯源和辞书编撰均有裨益。“二程语录”语词颇具特色,然辞书对其重视不够。通过对“二程语录”语词的考察发现,《汉语大词典》首引书证滞后的多义词义项共170例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号